<자격증>
-
ADP 실기(제 21회 데이터 분석 전문가)<자격증>/[ADP] 2021. 12. 19. 22:57
adp 실기 1. 성별 결석 건강 -- 13개의 독립변수와 등급(GRADE) 1개의 종속변수 1-1. 1.시각화, 2.결측치를 어떻게 처리할것인지 최소 2가지 방법으로 나눠 만들고 더 좋은 것을 선택한다. 3.인코딩할 변수를 바꿔라 1-2. train과 test 셋을 최소 2가지 방법으로 나눠 만들고 더 좋은 것을 선택한다. 이유 첨부해야한다 1-3. 랜덤포레스트, SVM, XGBoost로 만들고 이 셋의 공통점을 적어라. 가장 좋은 모델 1개를 찾고 성능향상 시켜라 2. 2-1. train셋으로 선형회귀모형을 만들고 test셋으로 RMSE, R-square값을 구하여라 2-2. 릿지 모형 (0~1까지 0.1씩 증가하며) 최적의 alpha, RMSE값을 구하여라 2-3. 라쏘 모형 (0~1까지 0.1..
-
빅분기 실기 3회차 단답형<자격증>/[빅데이터분석기사] 2021. 12. 9. 17:02
정답 1번. 향상도 문제에서 연관분석에 대한 말이 언급되어 유추 가능했습니다. 2번. 표준편차 or 분산 A학교 학생의 100점 만점의 60점과 B학교 학생의 100점 만점의 60점은 다르다. 그 이유는 무엇인가? 3번. 범주화 4번. 최대최소 정규화 or 표준화 문제에서 '정규화', 0과 1사이에 대한 언급이 있었습니다. 5번. 앙상블 6번. 중심연결법 문제에서 연결법에 대한 언급과 '중심'을 제시했습니다. 7번. svm 문제에서 '초평면'을 제시했습니다. 8번. 0.13 은닉층 계산문제 마지막 은닉층이 0.2, 0.3이고 가중치가 0.3, -0.1이며 편향이 0.1일때, 출력층의 값은 얼마인가? 9번. 거리 문제에서 knn에 대한 언급이 나왔습니다. 10번. 명목형 문제에서 순서형을 먼저 언급하고 빈..
-
-
빅분기 실기 3회차 후기<자격증>/[빅데이터분석기사] 2021. 12. 4. 18:51
빅데이터 분석기사 3회 - 실기 후기 2회차 기출문제 + 제공 문제를 보니 작업형 문제가 조잡(?)한거 같아 R이 아닌 파이썬을 사용했습니다. 결국 시중에 있는 문제집을 이용하지 못했습니다. (책의 두께도 만만치 않아 짧은 시간 공부하기엔 적합하지 않다고 판단했습니다.) (필자는 위기주도 학습으로 5일 완성을 목표로 했습니다.) 먼저, 공식사이트에서 제공하는 작업환경(구름 goorm)에 있는 문제를 최대한 이용해 공부했습니다. 주피터 노트북이나 비쥬얼 스튜디오에서 풀어도 되지만 error 발생시 구름과 error의 결과 내용이 달랐기 때문입니다. 추천 : error 결과문 적응을 위해 구름에서 공부하시길 추천합니다. 단답형의 경우, 처음부터 어렵게 보였습니다. 초장에 많이 당황해서 절반정도 풀었던 것 같..
-
빅분기 실기 3회차 작업형 1번 기출<자격증>/[빅데이터분석기사] 2021. 12. 4. 18:09
빅데이터 분석기사 3회 - 실기 작업형 1번 문제 작업형 1 공식사이트 : https://dataq.goorm.io/exam/116674/%EC%B2%B4%ED%97%98%ED%95%98%EA%B8%B0/quiz/3 1-1번 작업형 1-1번 : 상위 70% 추출 + 사분위수 Q1의 값을 구하시오. import pandas as pd a = pd.read_csv('/data') a = a.iloc[: int(len(a)*0.7)] answer = a['x1'].describe()['25%'] print(answer) 작업형 1-1번(공식사이트에서 해보기) import pandas as pd X_train = pd.read_csv("data/X_train.csv") X_train = X_train.iloc[..
-
빅분기 실기 3회차 작업형 2번 기출<자격증>/[빅데이터분석기사] 2021. 12. 4. 17:52
빅데이터 분석기사 3회 - 실기 작업형 2번 문제 데이터는 7개의 독립변수, 1개의 설명변수 7개의 독립변수는 3개의 수치형 변수 + 4개의 범주형 변수로 구성 1개의 설명변수는 범주형 변수 [yes, no] -> [1,0] import pandas as pd a = pd.read_csv('/data') # X_train과 y_train이 결합된 형태 b = pd.read_csv('/data') # X_test # 변수 변환 y_train = a[['y']] #dataframe 형태로 X_train = a.drop(columns = ['y'], axis =1 ) # 결과를 위한 정답 id = X_test.index # 1. 데이터 정제 print(X_train.isnull().sum()) # 결측치 없었..
-
-