-
캐글 data_cleaning/04-character-encoding<Kaggle-Course> 2023. 3. 16. 18:51728x90인코딩이란 무엇입니까?문자 인코딩은 원시 이진 바이트 문자열(예: 0110100001101001)에서 사람이 읽을 수 있는 텍스트(예: "hi")를 구성하는 문자로 매핑하기 위한 특정 규칙 집합입니다. 다양한 인코딩이 있으며 원래 작성된 것과 다른 인코딩으로 텍스트를 읽으려고 하면 "mojibake(글자깨짐)"(mo-gee-bah-kay와 같이 말함)라는 스크램블된 텍스트로 끝납니다. mojibake의 예는 다음과 같습니다.æ–‡å—化ã??"알 수 없는" 문자로 끝날 수도 있습니다. 특정 바이트와 바이트 문자열을 읽는 데 사용하는 인코딩의 문자 사이에 매핑이 없을 때 인쇄되는 내용이 있으며 다음과 같습니다.����������
import charset_normalizer
728x90'<Kaggle-Course>' 카테고리의 다른 글
캐글 data_visualization/01-hello-seaborn (0) 2023.03.17 캐글 data_cleaning/05-inconsistent-data-entry (0) 2023.03.16 캐글 data_cleaning/03-parsing-dates (0) 2023.03.16 캐글 data_cleaning/02-scaling-and-normalization (0) 2023.03.16 캐글 data_cleaning/01-handling-missing-values (0) 2023.03.16