<R>/[데이터 전처리]
-
-
[데이터 전처리] - 상관분석 in r<R>/[데이터 전처리] 2021. 12. 4. 19:39
상관분석 1. 피어슨 상관분석 방법 1 cor(Y, X1) #양/음의 상관관계를 가진다. cor.test(Y, X1) #p-value < 0.05이면 두 변수간 상관관계가 유의하다. cor(data[,-k]) # 상관계수행렬 시각화 plot(data[,-k]) #상관행렬 그래프 corrplot :: corrplot(cor(data[,-k])) #히트맵 corrgram :: corrgram(data[,-k], upper.panel = panel.conf) #히트맵 + 상관계수값
-
[데이터 전처리] - 시각화 in r<R>/[데이터 전처리] 2021. 12. 4. 19:38
데이터 시각화 1. 독립변수(X)별 종속변수(Y) 시각화 방법 1 data_list % which() lst % rename(aa % geom_point(alpha=.2, color = "#008ABC" + labs(title = paste0(df_list, "vs Y"), + x = df_list, y = "", color = df_list) + theme_bw() + theme(legend.positive = "bottom")}) grid.arrange(grobs = lst, ncol = 2) 방법 2 # 종속변수를 잘 설명하는 독립변수 선택(회귀분석, 예측분석) pairs(data %>% sample_n(min(1000, nrow(data))), lower.panel=function(x,y){poi..
-
-
-
-
[데이터 전처리] - 결측치 in r<R>/[데이터 전처리] 2021. 12. 3. 19:59
summary(data) 1. 결측치, NA 개수 확인 방법 1 summary(data) 방법 2 dlookr :: diagnose(data) 방법 3 apply(data, 2, function(x) sum(is.na(x))) 2. 결측치 삭제 방법 1 na.omit(data) 방법 2 data[complete.cases(data),] # 전체 행 삭제 data[complete.cases(data[,11]),] #일부 행(11번째) 삭제 3. 결측치 대체 방법 1 data$X1