728x90
character-encoding
-
캐글 data_cleaning/04-character-encoding<Kaggle-Course> 2023. 3. 16. 18:51
인코딩이란 무엇입니까? 문자 인코딩은 원시 이진 바이트 문자열(예: 0110100001101001)에서 사람이 읽을 수 있는 텍스트(예: "hi")를 구성하는 문자로 매핑하기 위한 특정 규칙 집합입니다. 다양한 인코딩이 있으며 원래 작성된 것과 다른 인코딩으로 텍스트를 읽으려고 하면 "mojibake(글자깨짐)"(mo-gee-bah-kay와 같이 말함)라는 스크램블된 텍스트로 끝납니다. mojibake의 예는 다음과 같습니다. æ–‡å—化ã?? "알 수 없는" 문자로 끝날 수도 있습니다. 특정 바이트와 바이트 문자열을 읽는 데 사용하는 인코딩의 문자 사이에 매핑이 없을 때 인쇄되는 내용이 있으며 다음과 같습니다. ���������� import charset_normalizer