-
[빅분기 실기 5일 완성] 1일차<빅분기 5일 완성> 2021. 12. 4. 22:21728x90
기본 개념 설명
0. import 함수
(= 함수를 불러오자)
0-1. import pandas as pd (pandas를 불러오기 + pd로 약칭하기)
0-2. import numpy as np (numpy를 불러오기 + np로 약칭하기)
1. 데이터 형태
1-1. 시리즈(Series)
: 인덱스 + 하나의 열 형태
시험에서 시리즈는 데이터프레임['변수명'] 형태로 쓴다.
ex) dataframe['gender'] # 대괄호는 dataframe의 일부(여기선 gender)를 끄집어내기 위해 쓴다.
ex)
하나의 열이 0(여자), 1(남자)을 가지는데 밑에 gender(성별)임을 알 수 있다. 1-2. 데이터프레임(DataFrame)
: 여러 행과 여러 열로 이루어짐 (문제에서 가장 기본으로 주어지는 형태)
tip : 흔히 사용하는 표를 떠올리면 쉽다.
ex)
2. 데이터 분석을 위한 모델
모델은 크게 회귀 모델(ex.집 값(수치형) )과 분류 모델(ex. 남/녀 (범주형) )로 나눈다.
회귀모델과 분류모델은 각각 여러 모델이 있다.
하지만 우리는 하나의 모델(랜덤 포레스트 모델)만 외운다.(가성비)
왜? 회귀와 분류 모두 사용 가능하고 예측력이 높아서※ 용어 정리
sklearn = 사이킷런(모든 모델의 집합)
ensemble = 앙상블
분류 랜덤포레스트 => from sklearn.ensemble import RandomForestClassifier
회귀 랜덤포레스트 => from sklearn.ensemble import RandomForestRegressor
=> 사이킷런(모든 모델의 집합) 중 앙상블 모형 중 랜덤포레스트 모델을 쓰겠다.이쯤하면 50%는 완료되었다.
"시작이 반이다"라는 말이 딱 맞다.
나중에도 나오겠지만 데이터 분석 과정(프로세스)는 다음과 같다.
맛보기
1. 데이터 불러오기 (시험에서 기본으로 작성되어 있음)
ex) X_train = pd.read_csv('/data')
# pd는 pandas의 약자 + read_csv는 csv파일로 읽는다.
참고. csv(comma seperate value) 각 행이 ,(콤마)로 나뉘어져 '/data'에 저장되어있다.
2. 데이터 정제
앞에 데이터프레임 개념에서 '환불금액'을 보면 2행,3행,4행 등에 NaN(결측값)이 있다.
이를 정제해야한다.
크게 3가지로 정제한다.
1. 삭제
2. 0으로 대체
3. 평균, 중앙값, 최소값, 최댓값 등으로 대체
3. 데이터 변환
= 더미화
(범주형을 수치형으로)
ex. 남자를 1로 여자를 0으로
4. 데이터 스케일링
사용하지 않아도 좋다.
5. 데이터 상관관계
사용하지 않아도 좋다.
6. 모델링
앞서 말한 랜덤포레스트를 사용한다.
7. 모델로 예측/분류한다.
8. 예측값 저장
끝
728x90