9566 :: 9566

캐글 data_visualization/01-hello-seaborn

<Kaggle-Course> 2023. 3. 17. 16:45

import pandas as pd pd.plotting.register_matplotlib_converters() import matplotlib.pyplot as plt %matplotlib inline import seaborn as sns print("Setup Complete")

캐글 data_cleaning/05-inconsistent-data-entry

<Kaggle-Course> 2023. 3. 16. 18:52

# 시작과 끝의 공백을 없앤다 professors['Country'] = professors['Country'].str.strip() import fuzzywuzzy from fuzzywuzzy import process import chardet matches = fuzzywuzzy.process.extract("south korea", countries, limit=10, scorer=fuzzywuzzy.fuzz.token_sort_ratio)

캐글 data_cleaning/04-character-encoding

<Kaggle-Course> 2023. 3. 16. 18:51

인코딩이란 무엇입니까? 문자 인코딩은 원시 이진 바이트 문자열(예: 0110100001101001)에서 사람이 읽을 수 있는 텍스트(예: "hi")를 구성하는 문자로 매핑하기 위한 특정 규칙 집합입니다. 다양한 인코딩이 있으며 원래 작성된 것과 다른 인코딩으로 텍스트를 읽으려고 하면 "mojibake(글자깨짐)"(mo-gee-bah-kay와 같이 말함)라는 스크램블된 텍스트로 끝납니다. mojibake의 예는 다음과 같습니다. æ–‡å—åŒ–ã?? "알 수 없는" 문자로 끝날 수도 있습니다. 특정 바이트와 바이트 문자열을 읽는 데 사용하는 인코딩의 문자 사이에 매핑이 없을 때 인쇄되는 내용이 있으며 다음과 같습니다. �� import charset_normalizer

캐글 data_cleaning/03-parsing-dates

<Kaggle-Course> 2023. 3. 16. 18:24

date_format = '%m/%d/%Y' earthquakes.loc[indices,'Date'] = pd.to_datetime(earthquakes.loc[indices,'Date']) \ .dt.strftime(date_format) earthquakes['date_parsed'] = pd.to_datetime(earthquakes['Date']) day_of_month_earthquakes = earthquakes['date_parsed'].dt.day date_lengths = earthquakes.Date.str.len() date_lengths.value_counts()

캐글 data_cleaning/02-scaling-and-normalization

<Kaggle-Course> 2023. 3. 16. 18:19

스케일링에서는 데이터 범위를 변경하는 반면 정규화에서는 데이터 분포의 모양을 변경합니다. # 스케일링 from mlxtend.preprocessing import minmax_scaling minmax_scaling(X, columns=['x1']) 보통 0~1사이로 스케일링된다. # 정규화 from scipy import stats normalized_data = stats.boxcox(original_data)

캐글 data_cleaning/01-handling-missing-values

<Kaggle-Course> 2023. 3. 16. 18:18

total_cells = np.product(nfl_data.shape) total_missing = missing_values_count.sum() # percent of data that is missing percent_missing = (total_missing/total_cells) * 100 print(percent_missing)

캐글 advanced_sql/04-writing-efficient-queries

<Kaggle-Course> 2023. 3. 15. 19:49

WITH LocationsAndOwners AS ( SELECT * FROM CostumeOwners co INNER JOIN CostumeLocations cl ON co.CostumeID = cl.CostumeID ), LastSeen AS ( SELECT CostumeID, MAX(Timestamp) FROM LocationsAndOwners GROUP BY CostumeID ) SELECT lo.CostumeID, Location FROM LocationsAndOwners lo INNER JOIN LastSeen ls ON lo.Timestamp = ls.Timestamp AND lo.CostumeID = ls.CostumeID WHERE OwnerID = MitzieOwnerID

캐글 advanced_sql/02-analytic-functions

<Kaggle-Course> 2023. 3. 15. 19:48

trip_number_query = """ SELECT pickup_community_area, trip_start_timestamp, trip_end_timestamp, RANK() OVER ( PARTITION BY pickup_community_area ORDER BY trip_start_timestamp ) AS trip_number FROM `bigquery-public-data.chicago_taxi_trips.taxi_trips` WHERE DATE(trip_start_timestamp) = '2017-05-01' """ break_time_query = """ SELECT taxi_id, trip_start_timestamp, trip_end_timestamp, TIMESTAMP_DIFF..

ABOUT ME

9566

티스토리툴바

ABOUT ME

전체 글

티스토리툴바