전체 글
-
-
POS 태킹 리스트카테고리 없음 2024. 3. 2. 15:01
Alphabetical list of part-of-speech tags used in the Penn Treebank Project: Number Tag Description 1. CC Coordinating conjunction 2. CD Cardinal number 3. DT Determiner 4. EX Existential there 5. FW Foreign word 6. IN Preposition or subordinating conjunction 7. JJ Adjective 8. JJR Adjective, comparative 9. JJS Adjective, superlative 10. LS List item marker 11. MD Modal 12. NN Noun, singular or m..
-
Bidirectional-LSTM-CRF 논문 번역<DL> 2024. 2. 29. 04:25
Abstract 이 논문에서는 시퀀스 태깅을 위한 다양한 LSTM(Long Short-Term Memory) 기반 모델을 제안합니다. 이러한 모델에는 LSTM 네트워크, 양방향 LSTM(BI-LSTM) 네트워크, 조건부 랜덤 필드(CRF) 계층(LSTM-CRF)이 있는 LSTM 및 CRF 계층(BI-LSTM-CRF)이 있는 양방향 LSTM이 포함됩니다. 저희의 연구는 양방향 LSTM CRF(BI-LSTM-CRF로 표시됨) 모델을 NLP 벤치마크 시퀀스 태그 생성 데이터 세트에 적용한 첫 번째 연구입니다. 저희는 BI-LSTM-CRF 모델이 양방향 LSTM 구성 요소 덕분에 과거 및 미래 입력 기능을 모두 효율적으로 사용할 수 있음을 보여줍니다. CRF 계층 덕분에 문장 수준 태그 정보도 사용할 수 있습니..
-
Bidirectional-LSTM-CRF 논문 사전 용어 리스트<DL> 2024. 2. 29. 04:24
Sequence Tagging : 입력 시퀀스(문장 또는 문서)의 각 요소(단어, 토큰, 또는 문자)에 대해 레이블 또는 태그를 할당 Sequence Data : 말 그대로 순서(sequence)가 있는 데이터 예시) 시계열 데이터, 텍스트 데이터 특징) 각 시퀀스 원소들은 특정 순서를 가져 독립적이지 않다. Tagging : 텍스트에서 각 단어나 토큰에 레이블을 할당(https://wikidocs.net/24682) 품사 태깅(POS, Part-of-Speech Tagging) : 각 단어가 명사, 동사, 형용사 등의 품사 중 어떤 품사를 가지는지를 분류 ex) "The cat is sleeping."에서 "cat"은 명사(NN), "is"는 동사(VB), "sleeping"은 형용사(JJ)로 태깅 개..
-
청크 태깅 레이블<DL> 2024. 2. 28. 00:49
B-NP: 명사구(Noun Phrase)의 시작 I-NP: 명사구(Noun Phrase)의 내부 (첫 단어 이후의 명사구 요소들) B-VP: 동사구(Verb Phrase)의 시작 I-VP: 동사구(Verb Phrase)의 내부 B-PP: 전치사구(Prepositional Phrase)의 시작 I-PP: 전치사구(Prepositional Phrase)의 내부 B-ADJP: 형용사구(Adjective Phrase)의 시작 I-ADJP: 형용사구(Adjective Phrase)의 내부 B-ADVP: 부사구(Adverb Phrase)의 시작 I-ADVP: 부사구(Adverb Phrase)의 내부 B-SBAR: 부사절구(Subordinate Clause)의 시작 I-SBAR: 부사절구(Subordinate Cla..
-
워드 임베딩, cbow<DL> 2024. 2. 25. 20:29
임베딩 : 비정형화된 텍스트를 숫자로 바꿔줌으로써 사람의 언어를 컴퓨터 언어로 번역하는 것 임베딩 종류 : 빈도 기반 임베딩, 분포 기반 임베딩 임베딩의 표현 방법 : 희소표현, 밀집표현 빈도 기반 임베딩 : 단어의 빈도를 기준으로 벡터로 변환, 운수좋은 날이라는 문서의 임베딩은 [2, 1, 1]입니다. 막걸리라는 단어의 임베딩은 [0, 1, 0, 0]이며, 사랑 손님과 어머니, 삼포 가는 길이 사용하는 단어 목록이 상대적으로 많이 겹치고 있는 것을 알 수 있습니다. 빈도 기반 임베딩 단점 : 등장 횟수(빈도) 기반의 표현은 간편하지만 몇 가지 한계가 있습니다. 대표적으로 희소 문제가 있는데요. 중요한 단어이더라도 자주 등장하지 않는 단어는 학습에서 가중치를 부여받는데 한계가 있습니다. 분포 가설 : 비..