전체 글
-
캐글 data_cleaning/05-inconsistent-data-entry<Kaggle-Course> 2023. 3. 16. 18:52
# 시작과 끝의 공백을 없앤다 professors['Country'] = professors['Country'].str.strip() import fuzzywuzzy from fuzzywuzzy import process import chardet matches = fuzzywuzzy.process.extract("south korea", countries, limit=10, scorer=fuzzywuzzy.fuzz.token_sort_ratio)
-
캐글 data_cleaning/04-character-encoding<Kaggle-Course> 2023. 3. 16. 18:51
인코딩이란 무엇입니까? 문자 인코딩은 원시 이진 바이트 문자열(예: 0110100001101001)에서 사람이 읽을 수 있는 텍스트(예: "hi")를 구성하는 문자로 매핑하기 위한 특정 규칙 집합입니다. 다양한 인코딩이 있으며 원래 작성된 것과 다른 인코딩으로 텍스트를 읽으려고 하면 "mojibake(글자깨짐)"(mo-gee-bah-kay와 같이 말함)라는 스크램블된 텍스트로 끝납니다. mojibake의 예는 다음과 같습니다. æ–‡å—化ã?? "알 수 없는" 문자로 끝날 수도 있습니다. 특정 바이트와 바이트 문자열을 읽는 데 사용하는 인코딩의 문자 사이에 매핑이 없을 때 인쇄되는 내용이 있으며 다음과 같습니다. ���������� import charset_normalizer
-
캐글 data_cleaning/03-parsing-dates<Kaggle-Course> 2023. 3. 16. 18:24
date_format = '%m/%d/%Y' earthquakes.loc[indices,'Date'] = pd.to_datetime(earthquakes.loc[indices,'Date']) \ .dt.strftime(date_format) earthquakes['date_parsed'] = pd.to_datetime(earthquakes['Date']) day_of_month_earthquakes = earthquakes['date_parsed'].dt.day date_lengths = earthquakes.Date.str.len() date_lengths.value_counts()
-
캐글 data_cleaning/02-scaling-and-normalization<Kaggle-Course> 2023. 3. 16. 18:19
스케일링에서는 데이터 범위를 변경하는 반면 정규화에서는 데이터 분포의 모양을 변경합니다. # 스케일링 from mlxtend.preprocessing import minmax_scaling minmax_scaling(X, columns=['x1']) 보통 0~1사이로 스케일링된다. # 정규화 from scipy import stats normalized_data = stats.boxcox(original_data)
-
캐글 advanced_sql/04-writing-efficient-queries<Kaggle-Course> 2023. 3. 15. 19:49
WITH LocationsAndOwners AS ( SELECT * FROM CostumeOwners co INNER JOIN CostumeLocations cl ON co.CostumeID = cl.CostumeID ), LastSeen AS ( SELECT CostumeID, MAX(Timestamp) FROM LocationsAndOwners GROUP BY CostumeID ) SELECT lo.CostumeID, Location FROM LocationsAndOwners lo INNER JOIN LastSeen ls ON lo.Timestamp = ls.Timestamp AND lo.CostumeID = ls.CostumeID WHERE OwnerID = MitzieOwnerID
-
캐글 advanced_sql/02-analytic-functions<Kaggle-Course> 2023. 3. 15. 19:48
trip_number_query = """ SELECT pickup_community_area, trip_start_timestamp, trip_end_timestamp, RANK() OVER ( PARTITION BY pickup_community_area ORDER BY trip_start_timestamp ) AS trip_number FROM `bigquery-public-data.chicago_taxi_trips.taxi_trips` WHERE DATE(trip_start_timestamp) = '2017-05-01' """ break_time_query = """ SELECT taxi_id, trip_start_timestamp, trip_end_timestamp, TIMESTAMP_DIFF..