분류 전체보기
-
파이썬 Numpy 난수 추출<Python>/[Numpy] 2021. 12. 20. 16:15
함수 제작 1. 정수 난수 1개 생성 np.random.randint(10) # 0~10사이의 아무거나 하나를 뽑는다. 2. 균일 분포(0~1)에서 난수 matrix array 생성 np.random.rand(5, 10) # 0~1사이의 5행 10열의 데이터를 뽑는다. 3. 표준 정규 분포(-n~n)에서 난수 matrix array 생성 np.random.randn(5, 10) # -n~n사이의 5행 10열의 데이터를 뽑는다. 실습 코드 import numpy as np # 1. 정수 난수 1개 생성 np.random.randint(10) # 0~10사이의 아무거나 하나를 뽑는다. # 2. 균일 분포(0~1)에서 난수 matrix array 생성 np.random.rand(5, 10) # 0~1사이의 5..
-
ADP 실기(제 23회 데이터 분석 전문가)<자격증>/[ADP] 2021. 12. 19. 22:58
기계학습 50점 문제 1. 독립변수는 4개 (온도, 습도, 빛, CO2), 종속변수는 객실사용 여부(0, 1) 관측치 290개의 분류문제 1-1. 1-1-1. EDA 과정을 하고 결과를 제시하여라. 1-1-2. 결측치를 찾고 대안법을 제시하여라. 1-1-3. 데이터 질을 향상 시키기 위한 방법을 제시하여라.(구현 필요X) 1-2. 1-2-1. 데이터 불균형 식별하고 불균형을 처리할 오버샘플링 기법 선택하여 2개 기법 선정 1-2-2. 위 오버샘플링 기법에서 만든 데이터 세트 2개를 제시하고 장단점을 작성하여라. 1-2-3. 오버샘플링 데이터로 정확도 측면 모델 하나 속도 측면 모델 하나를 제작하여라 1-3. 1-3-1. 둘 중에 하나의 모델을 선택하고 분류결과와 함께 이유를 제시하여라. 1-3-3. ..
-
ADP 실기(제 21회 데이터 분석 전문가)<자격증>/[ADP] 2021. 12. 19. 22:57
adp 실기 1. 성별 결석 건강 -- 13개의 독립변수와 등급(GRADE) 1개의 종속변수 1-1. 1.시각화, 2.결측치를 어떻게 처리할것인지 최소 2가지 방법으로 나눠 만들고 더 좋은 것을 선택한다. 3.인코딩할 변수를 바꿔라 1-2. train과 test 셋을 최소 2가지 방법으로 나눠 만들고 더 좋은 것을 선택한다. 이유 첨부해야한다 1-3. 랜덤포레스트, SVM, XGBoost로 만들고 이 셋의 공통점을 적어라. 가장 좋은 모델 1개를 찾고 성능향상 시켜라 2. 2-1. train셋으로 선형회귀모형을 만들고 test셋으로 RMSE, R-square값을 구하여라 2-2. 릿지 모형 (0~1까지 0.1씩 증가하며) 최적의 alpha, RMSE값을 구하여라 2-3. 라쏘 모형 (0~1까지 0.1..
-
파이썬 Pandas DataFrame 변수명 변경<Python>/[DataFrame] 2021. 12. 19. 21:56
변수명 변경 1. 변수명 변경 df = df.rename(columns={"X1": "변수1", "X2": "변수2"}) # 변수명 변경 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4, 0, 1, 2, 4], 'X2': [5, 7, np.nan, 9, 0, 1, 2, 4], 'X3': [np.nan, 10, np.nan, 12, 0, 1, 2, 4]}) # 1. 변수명 변경 df = df.rename(columns={"X1": "변수1", "X2": "변수2"}) # 변수명 변경 df 실습 결과 . 실습 파일
-
파이썬 Pandas DataFrame 함수 제작<Python>/[DataFrame] 2021. 12. 19. 21:50
함수 제작 1. 사용자 제작 함수 .apply(사용자 제작 함수) # 사용자가 만든 함수를 적용할수있다. ex)np.sum, np.square 2. 사용자 제작 함수 df.mean(axis=1) # 한행의 모든 값의 평균 3. 사용자 제작 함수 .aggregate([min, np.median, max]) 4.사용자 제작 함수 .aggregate({'X1' : min, 'X2' : sum}) 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4, 0, 1, 2, 4], 'X2': [5, 7, np.nan, 9, 0, 1, 2, 4], 'X3': [np.nan, 10, np.nan, 12, 0, 1, 2, 4]})..
-
파이썬 Pandas DataFrame 중복값<Python>/[DataFrame] 2021. 12. 19. 21:39
데이터 중복 1. 중복값 확인 df[df.duplicated(keep=False)] 2. 중복값 제거 df = df.drop_duplicates() 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4, 0, 1, 4, 4], 'X2': [5, 7, np.nan, 9, 0, 1, 4, 4], 'X3': [np.nan, 10, np.nan, 12, 0, 1, 4, 4]}) # 1. 중복값 확인 df[df.duplicated(keep=False)] # 2. 중복값 제거 df = df.drop_duplicates() 실습 결과 실습 파일
-
파이썬 Pandas DataFrame 상관계수<Python>/[DataFrame] 2021. 12. 19. 21:20
상관계수 1. 상관계수 #dataframe df.corr() 2. X1에 대한 상관계수 내림차순 정렬 df.corr()['X1'].sort_values(ascending=False) 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4, 0, 1, 2, 4], 'X2': [5, 7, np.nan, 9, 0, 1, 2, 4], 'X3': [np.nan, 10, np.nan, 12, 0, 1, 2, 4]}) # 1. 상관계수 #dataframe df.corr() # 2. X1에 대한 상관계수 내림차순 정렬 df.corr()['X1'].sort_values(ascending=False) 실습 결과 실습 파일
-
파이썬 Pandas DataFrame 데이터 분류<Python>/[DataFrame] 2021. 12. 19. 20:57
데이터 분류 1. X1을 기준으로 정렬하기 .sort_values('X1') 2. X1을 기준으로 정렬 후 X1 보기 .sort_values(by=['X1'])['X1'] # Series형태 3. X1 기준으로 정렬 후 내림차순 상위 10개 보기 .sort_values(by='X1', ascending=False).head(10) # 상위 10개 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4, 0, 1, 2, 4], 'X2': [5, 7, np.nan, 9, 0, 1, 2, 4], 'X3': [np.nan, 10, np.nan, 12, 0, 1, 2, 4]}) # 1. X1을 기준으로 정렬하기 .sort..