<Python>
-
파이썬 로지스틱 분류<Python>/[Model] 2021. 12. 24. 17:57
로지스틱 분류 from sklearn.linear_model import LogisticClassifier model = LogisticClassifier(solver="lbfgs", random_state=42) 로지스틱 분류 파라미터 penalty = {‘l1’, ‘l2’, ‘elasticnet’, ‘none’}, default=’l2’ dual = bool, 기본값 = 'False' # 1. liblinear 솔버를 사용하는 l2 패널티에 대해서만 구현 # 2. n_samples > n_features인 경우 dual=False를 선호 solver = {'newton-cg', 'lbfgs', 'liblinear', 'sag', 'saga'}, 기본값='lbfgs' # LIBLINEAR is a li..
-
파이썬 KNN<Python>/[Model] 2021. 12. 24. 17:39
knn from sklearn.neighbors import KNeighborsClassifier model = KNeighborsClassifier(n_neighbors=4, metric='euclidean') knn 파라미터 algorithm = {‘auto’, ‘ball_tree’, ‘kd_tree’, ‘brute’}, default=’auto’ # 가장 가까운 이웃을 계산하는 데 사용되는 알고리즘: # Brute Force 최접근 이웃의 빠른 계산은 기계학습에서 활발한 리서치 분야이다. 가장 초보수준의 이웃 탐색 구현은 데이터셋 내 지점의 모든 쌍의 거리를 억지로(brute-force) 계산하는 것이다. 효율적인 brute-force 이웃 탐색은 작은 데이터 샘플에 대해서는 매우 경쟁력이 있다. ..
-
파이썬 결정나무<Python>/[Model] 2021. 12. 24. 16:10
결정나무 from sklearn.tree import DecisionTreeClassifier model = DecisionTreeClassifier(random_state=1, max_depth=10) 결정나무 파라미터 # criterion={“gini”, “entropy”}, default=”gini” # splitter={“best”, “random”}, default=”best” # min_samples_split={int, float}, default=2 # 내부 노드를 분할하는 데 필요한 최소 샘플 수 # min_samples_leaf={int, float}, default=1 # 리프 노드에 있어야 하는 최소 샘플 수 # min_weight_fraction_leaf=float, default..
-
파이썬 Numpy 난수 추출<Python>/[Numpy] 2021. 12. 20. 16:15
함수 제작 1. 정수 난수 1개 생성 np.random.randint(10) # 0~10사이의 아무거나 하나를 뽑는다. 2. 균일 분포(0~1)에서 난수 matrix array 생성 np.random.rand(5, 10) # 0~1사이의 5행 10열의 데이터를 뽑는다. 3. 표준 정규 분포(-n~n)에서 난수 matrix array 생성 np.random.randn(5, 10) # -n~n사이의 5행 10열의 데이터를 뽑는다. 실습 코드 import numpy as np # 1. 정수 난수 1개 생성 np.random.randint(10) # 0~10사이의 아무거나 하나를 뽑는다. # 2. 균일 분포(0~1)에서 난수 matrix array 생성 np.random.rand(5, 10) # 0~1사이의 5..
-
파이썬 Pandas DataFrame 변수명 변경<Python>/[DataFrame] 2021. 12. 19. 21:56
변수명 변경 1. 변수명 변경 df = df.rename(columns={"X1": "변수1", "X2": "변수2"}) # 변수명 변경 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4, 0, 1, 2, 4], 'X2': [5, 7, np.nan, 9, 0, 1, 2, 4], 'X3': [np.nan, 10, np.nan, 12, 0, 1, 2, 4]}) # 1. 변수명 변경 df = df.rename(columns={"X1": "변수1", "X2": "변수2"}) # 변수명 변경 df 실습 결과 . 실습 파일
-
파이썬 Pandas DataFrame 함수 제작<Python>/[DataFrame] 2021. 12. 19. 21:50
함수 제작 1. 사용자 제작 함수 .apply(사용자 제작 함수) # 사용자가 만든 함수를 적용할수있다. ex)np.sum, np.square 2. 사용자 제작 함수 df.mean(axis=1) # 한행의 모든 값의 평균 3. 사용자 제작 함수 .aggregate([min, np.median, max]) 4.사용자 제작 함수 .aggregate({'X1' : min, 'X2' : sum}) 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4, 0, 1, 2, 4], 'X2': [5, 7, np.nan, 9, 0, 1, 2, 4], 'X3': [np.nan, 10, np.nan, 12, 0, 1, 2, 4]})..
-
파이썬 Pandas DataFrame 중복값<Python>/[DataFrame] 2021. 12. 19. 21:39
데이터 중복 1. 중복값 확인 df[df.duplicated(keep=False)] 2. 중복값 제거 df = df.drop_duplicates() 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4, 0, 1, 4, 4], 'X2': [5, 7, np.nan, 9, 0, 1, 4, 4], 'X3': [np.nan, 10, np.nan, 12, 0, 1, 4, 4]}) # 1. 중복값 확인 df[df.duplicated(keep=False)] # 2. 중복값 제거 df = df.drop_duplicates() 실습 결과 실습 파일
-
파이썬 Pandas DataFrame 상관계수<Python>/[DataFrame] 2021. 12. 19. 21:20
상관계수 1. 상관계수 #dataframe df.corr() 2. X1에 대한 상관계수 내림차순 정렬 df.corr()['X1'].sort_values(ascending=False) 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4, 0, 1, 2, 4], 'X2': [5, 7, np.nan, 9, 0, 1, 2, 4], 'X3': [np.nan, 10, np.nan, 12, 0, 1, 2, 4]}) # 1. 상관계수 #dataframe df.corr() # 2. X1에 대한 상관계수 내림차순 정렬 df.corr()['X1'].sort_values(ascending=False) 실습 결과 실습 파일