2024. 6. 10. 19:12ㆍ데이터분석 기술블로그
데이터분석 기초 이해
head() : 데이터의 앞부분 출력
tail() : 데이터의 뒷부분 출력
shape() : 데이터의 행, 열 개수 출력
info() : 변수 속성 출력
- non-null count : null(누락된 값)을 제외하고 구한 값의 개수
- dtype(변수속성) : int64(정수), float(실수), object(문자), datetime64(날짜 시간)
describe() : 요약 통계량 출력
데이터 프레임으로 실습
데이터 프레임 만들기
*데이터 프레임을 복사할 때 df.copy()를 사용하는 이유
df_new = df_raw와 같이 작성하면 df_new와 df_raw는 이름만 다를 뿐 한 몸 처럼 항상 같은 값을 갖게 됨. 어느 한쪽을 수정하면 다른 한쪽도 수정되므로, 복사본을 수정해도 원본은 영향을 받지 않도록 df.copy()를 사용
파생 변수(derived variable)
파생 변수는 기존의 변수를 변형하여 만든 변수이다. 가령 아래에서 데이터프레임의 열(column) var1, var2를 활용해서 총합을 나타내는 열인 var_sum, 평균을 나타내는 var_mean 같은 파생변수를 추가할 수 있다.
[조건문을 활용해 파생변수 만들기]
1. 기준값 정하기
2. 합격 판정 변수 만들기
3. 빈도표로 합격 판정 자동차 수 살펴보기
4. 막대그래프로 빈도 표현하기
[중첩 조건문 활용하기]
1. 연비등급 변수 만들기
2. 빈도표와 막대 그래프로 연비 등급 살펴보기
*메소드 체이닝(method chaining)
.을 이용해 메소드를 계속 이어서 작성하는 방법 (ex. mpg['grade'].value_counts().sort_index()) 변수에 여러 메소드를 순서대로 적용한다. 출력 결과를 변수에 할당하고 다시 불러오는 작업을 반복하지 않아도 된다.
필요한 만큼 범주 만들기 : 범주의 수 -1
목록에 해당하는 행으로 변수 만들기
- category에서 compact, subcompact, 2seater는 스몰 아니면 라지라는 뜻 (확인필요)
- np.where()에 여러 조건 입력할 때 각 조건에 괄호 입력 주의
정리하기
'데이터분석 기술블로그' 카테고리의 다른 글
성동2기 전Z전능 데이터 분석가 20일차[데이터 시각화] (0) | 2024.06.11 |
---|---|
성동2기 전Z전능 데이터 분석가 19일차[numpy, pandas_02] (0) | 2024.06.10 |
성동2기 전Z전능 데이터 분석가 17일차 [파이썬 기초이해_03] (0) | 2024.06.05 |
성동2기 전Z전능 데이터 분석가 16일차 [파이썬 기초이해_02],[데이터 분석 법률 이슈] (0) | 2024.06.04 |
성동2기 전Z전능 데이터 분석가 15일차 [파이썬 기초 이해_01] (0) | 2024.06.04 |