<Python>/[DataFrame]
-
파이썬 Pandas DataFrame 열 제거<Python>/[DataFrame] 2021. 12. 18. 21:16
데이터 제거 1. 열 제거 df.drop(시리즈.index.tolist(), axis=1) # 변수 삭제 #drop안에 list가 들어가야함 2. 열 제거 df.drop(columns=['x1', 'x2'], axis =1, inplace=True) # 열 제거 # inplace=True는 df에 바로 적용 3. 열 제거 df.drop(columns={'x1', 'x2'}) 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4], 'X2': [5, 7, np.nan, 9], 'X3': [np.nan, 10, np.nan, 12]}) df # 1. 열 제거 df.drop(시리즈.index.tolist(), axi..
-
파이썬 Pandas DataFrame 일부 행 제거<Python>/[DataFrame] 2021. 12. 18. 21:16
데이터 제거 1. 일부 행 제거 df = df.drop(1, axis=0) # 1번째 행 제거 2. 일부 행 제거 df[~(df['X1'] == 'NEAR BAY')] # 원하는 행 제거 + 추가 1. df.query('x1 ! = ''''') # 빈문자열 행 제거 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [np.nan, 1, 2, 4], 'X2': [5, 7, np.nan, 9], 'X3': [np.nan, 10, np.nan, 12]}) df # 1. 일부 행 제거 df = df.drop(1, axis=0) # 1번째 행 제거 # 2. 일부 행 제거 df[~(df['X1'] == 'NEAR BAY')] # 원하는 행..
-
파이썬 Pandas DataFrame 결측치 행 제거<Python>/[DataFrame] 2021. 12. 18. 21:15
데이터 제거 1. 결측치 행 제거 df.dropna(axis=0) # NaN이 있는 행 제거 2. 결측치 행 제거 df.dropna() # NaN 행 제거 3. 결측치 행 제거 df.dropna(subset=['X1'], inplace =True) # x1의 결측값 행 제거 4. 결측치 행 제거 df=df[~df['X1'].isnull()] # 행 제거 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [np.nan, 1, 2, 4], 'X2': [5, 7, np.nan, 9], 'X3': [np.nan, 10, np.nan, 12]}) df # 1. 결측치 행 제거 df.dropna(axis=0) # NaN이 있는 행 제거 #..
-
파이썬 Pandas DataFrame 결측치 확인<Python>/[DataFrame] 2021. 12. 18. 20:18
결측치 대체 1. 결측치 개수확인 .isnull().sum() #결과는 시리즈형태 2. 결측값 확인 df[df['x1'].isnull()] 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4], 'X2': [5, 7, np.nan, 9], 'X3': [np.nan, 10, np.nan, 12]}) df # 방법 1 df.isnull().sum() # X2가 1개, X3가 2개의 결측치를 가진다. # 방법 2 df[df['X2'].isnull()] # 결측값 확인 실습 결과 실습 파일
-
파이썬 Pandas DataFrame 결측치 대체<Python>/[DataFrame] 2021. 12. 18. 19:03
결측치 대체 1. (결측치 -> 평균값) df.X1 = df.X1.fillna(df.X1.mean()) # NaN을 평균값으로 대체 2. (결측치 -> 최빈값, 평균값) df.fillna({'X1':df['X1'].mode()[0], 'X2':int(df['X2'].mean())}, inplace=True) # X1은 최빈값, X2는 평균값으로 대체 3. (결측치 -> 정수) df['X1'] = df['X1'].fillna(3) # 결측값을 3으로 대체 4. (결측치 -> 0) df = df.replace(np.NaN, 0) + 추가 1. ( 값 -> 결측치) df.iloc[3, 3] = np.nan # 3행3열을 결측값으로 교체 # iloc = index location(인덱스 위치) 2. (문자 ->..
-
파이썬 Pandas DataFrame<Python>/[DataFrame] 2021. 12. 3. 16:39
1. 결측치 확인——————————————————————————————— 2. .isnull().sum() #결과는 시리즈형태 # 결측치 개수확인 3. df[df['x1'].isnull()] # 결측값 확인 실습 : https://9566.tistory.com/41 4. 데이터 제거————————————————————————————— 5. .drop(시리즈.index.tolist(), axis=1) # 변수 삭제 #drop안에 list가 들어가야함 6. .drop(columns=['x1', 'x2'], axis =1, inplace=True) # 열 제거 # inplace=True는 df에 바로 적용 7. .drop(columns={'x1', 'x2'}) 실습 : https://9566.tistory.c..