<Python>
-
파이썬 Pandas DataFrame 데이터 분류<Python>/[DataFrame] 2021. 12. 19. 20:57
데이터 분류 1. X1을 기준으로 정렬하기 .sort_values('X1') 2. X1을 기준으로 정렬 후 X1 보기 .sort_values(by=['X1'])['X1'] # Series형태 3. X1 기준으로 정렬 후 내림차순 상위 10개 보기 .sort_values(by='X1', ascending=False).head(10) # 상위 10개 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4, 0, 1, 2, 4], 'X2': [5, 7, np.nan, 9, 0, 1, 2, 4], 'X3': [np.nan, 10, np.nan, 12, 0, 1, 2, 4]}) # 1. X1을 기준으로 정렬하기 .sort..
-
파이썬 Pandas DataFrame 데이터 그룹화<Python>/[DataFrame] 2021. 12. 19. 17:51
데이터 그룹화 1. X1의 각 원소마다의 X2값 평균 .groupby('X1').mean()['X2'] 2. X1의 각 원소마다의 X2값 평균 .groupby('X1')['X2'].agg(**{'mean_X2' : 'mean'}) 3. X1의 각 원소마다의 X2값 평균 .groupby('X1').agg(**{'mean_X2' : pd.NamedAgg(column='X2', aggfunc='mean')}) 4. latitude의 각 원소마다의 longitude, total_rooms값 평균 df.groupby('latitude').agg(**{'mean_longitude': pd.NamedAgg(column = 'longitude', aggfunc = 'mean') , 'mean_total_rooms' :..
-
파이썬 Pandas DataFrame 데이터 변환<Python>/[DataFrame] 2021. 12. 19. 17:21
데이터 변환 1. DataFrame -> Series df['x1'] df.x1 2. DataFrame -> DataFrame df[['x1']] 3. 열 추출 #DataFrame df[['x1', 'x2']] 4. X1, X3 열 추출 #DataFrame df.iloc[:, [0,2]] 5. Series → ndarray (행,) 형태 np.array(df['X1']).reshape(-1,1) 6. Series → Ndarray df['x1'].unique() 7. Series → Dictionary df['x1'].to_dict() 8. Series → List sorted(list(set(df['x1']))) 9. 시간으로 변환 .to_datetime(df['x1'], format='%Y-%m-%d..
-
파이썬 Pandas DataFrame 정보(사분위수, 최대 최소값 등 수치형 정보)<Python>/[DataFrame] 2021. 12. 19. 15:54
정보 1. 결측값을 제외한 데이터 개수 확인 .info() # output : 변수명/null 존재여부/dtype 2. 사분위수 .describe() # output : count, mean, std, min, max, 25%, 50%, 75% 수치형 정보 3. 사분위수 활용 df['x1'].describe()['75%'] 4. 널값 정보 .isnull().sum() 5. 널값 정보 .isna().sum() 6. 데이터 타입 .dtypes 7. 변수명 .columns() #결과는 인덱스형태 예제 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4], 'X2': [5, 7, np.nan, 9], 'X3': [np.n..
-
파이썬 Pandas DataFrame 개수<Python>/[DataFrame] 2021. 12. 19. 14:36
개수 세기 1. 길이확인, 개수 세기 len(df) len(df['x1']) #시리즈 2. (행, 열) 개수 df.shape 3. 행개수 df.shape[0] 4. 열개수 df.shape[1] 5. (행,) 개수 df['x1'].shape 6. 널값을 제외한 개수 세기 df.count() df['x1'].count() #시리즈 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4], 'X2': [5, 7, np.nan, 9], 'X3': [np.nan, 10, np.nan, 12]}) # 1. 길이확인, 개수 세기 len(df) len(df['X1']) #시리즈 # 2. (행, 열) 개수 df.shape # 3..
-
파이썬 Pandas DataFrame 열 제거<Python>/[DataFrame] 2021. 12. 18. 21:16
데이터 제거 1. 열 제거 df.drop(시리즈.index.tolist(), axis=1) # 변수 삭제 #drop안에 list가 들어가야함 2. 열 제거 df.drop(columns=['x1', 'x2'], axis =1, inplace=True) # 열 제거 # inplace=True는 df에 바로 적용 3. 열 제거 df.drop(columns={'x1', 'x2'}) 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [0, 1, 2, 4], 'X2': [5, 7, np.nan, 9], 'X3': [np.nan, 10, np.nan, 12]}) df # 1. 열 제거 df.drop(시리즈.index.tolist(), axi..
-
파이썬 Pandas DataFrame 일부 행 제거<Python>/[DataFrame] 2021. 12. 18. 21:16
데이터 제거 1. 일부 행 제거 df = df.drop(1, axis=0) # 1번째 행 제거 2. 일부 행 제거 df[~(df['X1'] == 'NEAR BAY')] # 원하는 행 제거 + 추가 1. df.query('x1 ! = ''''') # 빈문자열 행 제거 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [np.nan, 1, 2, 4], 'X2': [5, 7, np.nan, 9], 'X3': [np.nan, 10, np.nan, 12]}) df # 1. 일부 행 제거 df = df.drop(1, axis=0) # 1번째 행 제거 # 2. 일부 행 제거 df[~(df['X1'] == 'NEAR BAY')] # 원하는 행..
-
파이썬 Pandas DataFrame 결측치 행 제거<Python>/[DataFrame] 2021. 12. 18. 21:15
데이터 제거 1. 결측치 행 제거 df.dropna(axis=0) # NaN이 있는 행 제거 2. 결측치 행 제거 df.dropna() # NaN 행 제거 3. 결측치 행 제거 df.dropna(subset=['X1'], inplace =True) # x1의 결측값 행 제거 4. 결측치 행 제거 df=df[~df['X1'].isnull()] # 행 제거 실습 코드 import pandas as pd import numpy as np df = pd.DataFrame({ 'X1': [np.nan, 1, 2, 4], 'X2': [5, 7, np.nan, 9], 'X3': [np.nan, 10, np.nan, 12]}) df # 1. 결측치 행 제거 df.dropna(axis=0) # NaN이 있는 행 제거 #..