9566 :: 9566

파이썬 Pandas DataFrame 결측치 확인

<Python>/[DataFrame] 2021. 12. 18. 20:18

결측치 대체 1. 결측치 개수확인 .isnull().sum() #결과는 시리즈형태 2. 결측값 확인 df[df['x1'].isnull()] 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4], 'X2': [5, 7, np.nan, 9], 'X3': [np.nan, 10, np.nan, 12]}) df # 방법 1 df.isnull().sum() # X2가 1개, X3가 2개의 결측치를 가진다. # 방법 2 df[df['X2'].isnull()] # 결측값 확인 실습 결과 실습 파일

파이썬 Pandas DataFrame 결측치 대체

<Python>/[DataFrame] 2021. 12. 18. 19:03

결측치 대체 1. (결측치 -> 평균값) df.X1 = df.X1.fillna(df.X1.mean()) # NaN을 평균값으로 대체 2. (결측치 -> 최빈값, 평균값) df.fillna({'X1':df['X1'].mode()[0], 'X2':int(df['X2'].mean())}, inplace=True) # X1은 최빈값, X2는 평균값으로 대체 3. (결측치 -> 정수) df['X1'] = df['X1'].fillna(3) # 결측값을 3으로 대체 4. (결측치 -> 0) df = df.replace(np.NaN, 0) + 추가 1. ( 값 -> 결측치) df.iloc[3, 3] = np.nan # 3행3열을 결측값으로 교체 # iloc = index location(인덱스 위치) 2. (문자 ->..

빅분기 실기 3회차 단답형

<자격증>/[빅데이터분석기사] 2021. 12. 9. 17:02

정답 1번. 향상도 문제에서 연관분석에 대한 말이 언급되어 유추 가능했습니다. 2번. 표준편차 or 분산 A학교 학생의 100점 만점의 60점과 B학교 학생의 100점 만점의 60점은 다르다. 그 이유는 무엇인가? 3번. 범주화 4번. 최대최소 정규화 or 표준화 문제에서 '정규화', 0과 1사이에 대한 언급이 있었습니다. 5번. 앙상블 6번. 중심연결법 문제에서 연결법에 대한 언급과 '중심'을 제시했습니다. 7번. svm 문제에서 '초평면'을 제시했습니다. 8번. 0.13 은닉층 계산문제 마지막 은닉층이 0.2, 0.3이고 가중치가 0.3, -0.1이며 편향이 0.1일때, 출력층의 값은 얼마인가? 9번. 거리 문제에서 knn에 대한 언급이 나왔습니다. 10번. 명목형 문제에서 순서형을 먼저 언급하고 빈..

분산분석(ANOVA) in r

<R>/[데이터 분석] 2021. 12. 5. 14:26

분산분석(anova) x1의 범주가 y 평균값의 차이가 있는가? ex) 귀무가설 : x1(2개의 범주 : 포워드, 미드필더)에 대해 y(연봉)의 평균은 모두 같다. X별 Y 평균의 차이가 있는지 통계적으로 검증 summary(aov(Y~X1, data)) #1원배치 summary(aov(Y~X1+X2+X1:X2, data)) #2원배치 X1:X2=상호작용효과 # p-value 0.05면 유의한 차이가 있다. X에 따른 Y의 차이가 있는지 통계적으로 검증 var.test(Y~X1, data, alternative = "two.sided") #p-value > 0.05이면 귀무가설을 기각하지 않음 = 등분산 가정을 만족 t.test(Y~X1, data, alternative = "two.sided", var..

앙상블 모형 예측, 성과분석 in r

<R>/[데이터 분석] 2021. 12. 5. 14:26

배깅, 부스팅, 랜덤포레스트 예측 pred

랜덤포레스트 in r

<R>/[데이터 분석] 2021. 12. 5. 14:25

랜덤포레스트 rf.model

연관성 분석 in r

<R>/[데이터 분석] 2021. 12. 5. 14:25

연관성 분석 arules 패키지 m

Support Vector Machine in r

<R>/[데이터 분석] 2021. 12. 5. 14:25

SVM e1071 패키지 tune.svm(data.Y~., data=data, gamma = 10^(-6:-1), cost = 10^(1:2)) # best parameters를 제공 # gamma = 초평면의 기울기, cost = 과적합을 막는 정도, default=1 svm.model

ABOUT ME

9566

티스토리툴바

ABOUT ME

전체 글

티스토리툴바