분류 전체보기
-
[데이터 전처리] - 시각화 in r<R>/[데이터 전처리] 2021. 12. 4. 19:38
데이터 시각화 1. 독립변수(X)별 종속변수(Y) 시각화 방법 1 data_list % which() lst % rename(aa % geom_point(alpha=.2, color = "#008ABC" + labs(title = paste0(df_list, "vs Y"), + x = df_list, y = "", color = df_list) + theme_bw() + theme(legend.positive = "bottom")}) grid.arrange(grobs = lst, ncol = 2) 방법 2 # 종속변수를 잘 설명하는 독립변수 선택(회귀분석, 예측분석) pairs(data %>% sample_n(min(1000, nrow(data))), lower.panel=function(x,y){poi..
-
-
-
-
빅분기 실기 3회차 후기<자격증>/[빅데이터분석기사] 2021. 12. 4. 18:51
빅데이터 분석기사 3회 - 실기 후기 2회차 기출문제 + 제공 문제를 보니 작업형 문제가 조잡(?)한거 같아 R이 아닌 파이썬을 사용했습니다. 결국 시중에 있는 문제집을 이용하지 못했습니다. (책의 두께도 만만치 않아 짧은 시간 공부하기엔 적합하지 않다고 판단했습니다.) (필자는 위기주도 학습으로 5일 완성을 목표로 했습니다.) 먼저, 공식사이트에서 제공하는 작업환경(구름 goorm)에 있는 문제를 최대한 이용해 공부했습니다. 주피터 노트북이나 비쥬얼 스튜디오에서 풀어도 되지만 error 발생시 구름과 error의 결과 내용이 달랐기 때문입니다. 추천 : error 결과문 적응을 위해 구름에서 공부하시길 추천합니다. 단답형의 경우, 처음부터 어렵게 보였습니다. 초장에 많이 당황해서 절반정도 풀었던 것 같..
-
빅분기 실기 3회차 작업형 1번 기출<자격증>/[빅데이터분석기사] 2021. 12. 4. 18:09
빅데이터 분석기사 3회 - 실기 작업형 1번 문제 작업형 1 공식사이트 : https://dataq.goorm.io/exam/116674/%EC%B2%B4%ED%97%98%ED%95%98%EA%B8%B0/quiz/3 1-1번 작업형 1-1번 : 상위 70% 추출 + 사분위수 Q1의 값을 구하시오. import pandas as pd a = pd.read_csv('/data') a = a.iloc[: int(len(a)*0.7)] answer = a['x1'].describe()['25%'] print(answer) 작업형 1-1번(공식사이트에서 해보기) import pandas as pd X_train = pd.read_csv("data/X_train.csv") X_train = X_train.iloc[..
-
빅분기 실기 3회차 작업형 2번 기출<자격증>/[빅데이터분석기사] 2021. 12. 4. 17:52
빅데이터 분석기사 3회 - 실기 작업형 2번 문제 데이터는 7개의 독립변수, 1개의 설명변수 7개의 독립변수는 3개의 수치형 변수 + 4개의 범주형 변수로 구성 1개의 설명변수는 범주형 변수 [yes, no] -> [1,0] import pandas as pd a = pd.read_csv('/data') # X_train과 y_train이 결합된 형태 b = pd.read_csv('/data') # X_test # 변수 변환 y_train = a[['y']] #dataframe 형태로 X_train = a.drop(columns = ['y'], axis =1 ) # 결과를 위한 정답 id = X_test.index # 1. 데이터 정제 print(X_train.isnull().sum()) # 결측치 없었..