분류 전체보기
-
-
-
[빅분기 실기 5일 완성] 1일차<빅분기 5일 완성> 2021. 12. 4. 22:21
기본 개념 설명 0. import 함수 (= 함수를 불러오자) 0-1. import pandas as pd (pandas를 불러오기 + pd로 약칭하기) 0-2. import numpy as np (numpy를 불러오기 + np로 약칭하기) 1. 데이터 형태 1-1. 시리즈(Series) : 인덱스 + 하나의 열 형태 시험에서 시리즈는 데이터프레임['변수명'] 형태로 쓴다. ex) dataframe['gender'] # 대괄호는 dataframe의 일부(여기선 gender)를 끄집어내기 위해 쓴다. ex) 1-2. 데이터프레임(DataFrame) : 여러 행과 여러 열로 이루어짐 (문제에서 가장 기본으로 주어지는 형태) tip : 흔히 사용하는 표를 떠올리면 쉽다. ex) 2. 데이터 분석을 위한 모델 ..
-
요인 분석 in r<R>/[데이터 분석] 2021. 12. 4. 19:40
요인분석 1. 역문항 처리 data1 % select_all 2. 요인회전 및 요인적재값 library(GPArotation) data_EFA 0.05이면 통계적으로 유의한 평균의 차이가 없다 # -> 등분산성을 만족->anova) lawstat :: levene.test(data1$Y, data2$X1, location="mean", correction.method="zero.correction") data2_aov 0.05이면 등분산성 만족 t.test(Y~X2, var.equal=T, data=data2) 6. 요인에 대한 상관분석,상관도표 6-1. 요인 계산 data2 % mutate(X1 = rowMeans(data2, na.rm=T)) %>% select_all 6-2. 상관분석 #(proba..
-
-
-
[데이터 전처리] - 상관분석 in r<R>/[데이터 전처리] 2021. 12. 4. 19:39
상관분석 1. 피어슨 상관분석 방법 1 cor(Y, X1) #양/음의 상관관계를 가진다. cor.test(Y, X1) #p-value < 0.05이면 두 변수간 상관관계가 유의하다. cor(data[,-k]) # 상관계수행렬 시각화 plot(data[,-k]) #상관행렬 그래프 corrplot :: corrplot(cor(data[,-k])) #히트맵 corrgram :: corrgram(data[,-k], upper.panel = panel.conf) #히트맵 + 상관계수값