<Python>
-
파이썬 Pandas DataFrame .groupby.apply vsv .agg<Python>/[DataFrame] 2023. 3. 8. 15:52
그룹별로 데이터를 처리해야 하는 경우가 종종 있습니다. Pandas DataFrame에서는 groupby 함수를 이용해 그룹별로 데이터를 묶은 후 처리할 수 있습니다. 이번에는 groupby 함수를 이용해 그룹별로 정렬 및 값을 추가하는 방법에 대해 알아보겠습니다. (1) 그룹별로 x 칼럼을 기준으로 내림차순 정렬하기 groupby 함수를 이용해 데이터를 그룹화한 후 apply 함수를 이용해 그룹별로 정렬을 수행할 수 있습니다. 아래 예제는 group 칼럼을 기준으로 x 칼럼을 내림차순 정렬하는 코드입니다. import pandas as pd # 예제 데이터 생성 df = pd.DataFrame({'group': ['A', 'A', 'B', 'B'], 'x': [3, 1, 2, 4]}) # 그룹별로 x ..
-
파이썬 Pandas DataFrame .groupby<Python>/[DataFrame] 2023. 3. 8. 15:48
Pandas에서는 그룹 단위로 데이터를 처리할 수 있습니다. 이번에는 그룹 단위로 데이터를 정렬하고, 누적 비율을 계산하는 방법과 그룹 단위로 특정 분위수의 위치를 구하는 방법에 대해 알아보겠습니다. (1) 그룹별로 x 칼럼을 정렬 후 누적 비율을 구하기 그룹 단위로 데이터를 정렬하고 누적 비율을 계산하기 위해서는 groupby 메서드와 cumsum 메서드를 사용할 수 있습니다. 먼저 다음과 같은 DataFrame이 있다고 가정해봅시다. group x 0 A 1 1 A 2 2 A 3 3 B 4 4 B 5 5 B 6 여기서 group 칼럼을 기준으로 그룹을 지정한 후 x 칼럼을 정렬하고 누적 비율을 계산해보겠습니다. df.groupby('group')['x'].apply(lambda x: x.sort_va..
-
파이썬 Pandas DataFrame .any vs .all<Python>/[DataFrame] 2023. 3. 8. 15:32
Pandas DataFrame에서 특정 조건에 해당하는 행을 가져오는 방법으로, pd.DataFrame.any(axis=1)와 pd.DataFrame.all(axis=1)을 사용할 수 있습니다. (1) pd.DataFrame.any(axis=1)은 DataFrame의 각 행에서 적어도 하나의 칼럼 값이 True인 행을 가져옵니다. 예를 들어, 다음과 같은 DataFrame이 있다고 가정해봅시다. A B C D 0 False True False False 1 True False False False 2 False False True False 3 False False False False any(axis=1)을 사용하여 B 칼럼이 True인 행을 가져올 수 있습니다. df[df['B'].any(axis=1..
-
파이썬 Pandas DataFrame .loc vs .iloc<Python>/[DataFrame] 2023. 3. 8. 15:28
loc와 iloc는 Pandas의 DataFrame에서 데이터를 선택, 인덱싱, 슬라이싱할 때 사용하는 두 가지 인덱싱 방법입니다. 이번에는 이 둘의 차이점에 대해 자세히 알아보고, 이를 활용하는 예시를 소개해보도록 하겠습니다. loc와 iloc의 차이점 loc와 iloc는 모두 데이터프레임에서 데이터를 선택할 때 사용하는 인덱서(indexer)이지만, 사용하는 인덱스의 종류가 다릅니다. loc는 인덱스의 이름으로 데이터를 선택하는 인덱서입니다. 따라서 인덱스가 문자열인 경우에 사용합니다. 예를 들어, 다음과 같은 데이터프레임이 있다고 가정해봅시다. >>> import pandas as pd >>> df = pd.DataFrame({'A': [1, 2, 3], 'B': [4, 5, 6]}, index=[..
-
파이썬 Pandas DataFrame .filter() like 옵션<Python>/[DataFrame] 2023. 3. 7. 19:32
pd.DataFrame.filter() 함수의 like 옵션을 사용하면, 특정 문자열을 포함하는 행이나 열을 선택해서 가져올 수 있습니다. 이 옵션을 사용하면, 정규 표현식을 사용하지 않고도 간단하게 원하는 행이나 열을 선택할 수 있습니다. 예를 들어, 다음과 같은 데이터프레임이 있다고 가정해 봅시다. import pandas as pd data = {'Name': ['Alice', 'Bob', 'Charlie', 'David'], 'Age': [25, 32, 18, 47], 'Gender': ['F', 'M', 'M', 'M'], 'Country': ['USA', 'Canada', 'Australia', 'USA']} df = pd.DataFrame(data) 이제, Name 열에서 'a' 문자열을 포..
-
파이썬 Pandas DataFrame .filter() regex 옵션<Python>/[DataFrame] 2023. 3. 7. 19:28
pd.DataFrame.filter() 함수 pd.DataFrame.filter() 함수는 데이터프레임의 특정 행이나 열을 선택하여 가져오는 함수입니다. 이 함수를 사용하면 정확하게 필요한 데이터만을 가져올 수 있어 편리합니다. 이 함수는 items, like, regex 옵션을 제공합니다. regex 옵션 regex 옵션은 정규 표현식을 사용하여 가져올 행이나 열을 선택하는 옵션입니다. 이 옵션은 문자열에서 패턴을 찾아 일치하는 값을 반환합니다. 예를 들어, 다음과 같은 데이터프레임이 있다고 가정해보겠습니다. import pandas as pd df = pd.DataFrame({ 'A': [1, 2, 3], 'B': [4, 5, 6], 'CDE': [7, 8, 9], 'FG': [10, 11, 12] ..
-
파이썬 Pandas DataFrame .filter() items 옵션<Python>/[DataFrame] 2023. 3. 7. 19:26
판다스(Pandas)의 DataFrame에서 filter() 함수는 열(axis=1) 또는 행(axis=0)을 선택하는 데 사용됩니다. filter() 함수는 기본적으로 열(axis=1)을 선택하는 함수입니다. 먼저, DataFrame.filter() 함수는 items 옵션을 사용하여 열의 이름을 지정하여 열을 선택할 수 있습니다. 이 경우, 열 이름을 문자열 또는 리스트 형식으로 전달할 수 있습니다. 예를 들어, 다음과 같은 DataFrame이 있다고 가정해 봅시다. import pandas as pd df = pd.DataFrame({'이름': ['Alice', 'Bob', 'Charlie', 'Dave'], '나이': [25, 30, 35, 40], '성별': ['여성', '남성', '남성', '남..
-
파이썬 Pandas DataFrame 데이터 유형별 칼럼 선택, 배제<Python>/[DataFrame] 2023. 3. 7. 19:11
Pandas는 데이터 분석을 위한 파이썬 라이브러리로, 데이터 프레임을 다루기 위한 다양한 함수를 제공합니다. 이 중에서도 데이터 프레임의 칼럼별 데이터 유형을 확인하고, 특정 데이터 유형의 칼럼을 선택하거나 제외하는 방법은 매우 유용합니다. 1. 데이터 프레임의 칼럼별 데이터 유형 확인하기 데이터 프레임의 칼럼별 데이터 유형을 확인하기 위해서는 dtypes 속성을 이용하면 됩니다. 이 속성은 각 칼럼의 데이터 유형을 Series 형태로 반환합니다. import pandas as pd df = pd.DataFrame({'A': [1, 2, 3], 'B': ['a', 'b', 'c'], 'C': [1.0, 2.0, 3.0]}) print(df.dtypes) 위 코드를 실행하면 다음과 같이 출력됩니다. A ..