-
Bidirectional-LSTM-CRF 논문 번역<DL> 2024. 2. 29. 04:25728x90
Abstract
이 논문에서는 시퀀스 태깅을 위한 다양한 LSTM(Long Short-Term Memory) 기반 모델을 제안합니다. 이러한 모델에는 LSTM 네트워크, 양방향 LSTM(BI-LSTM) 네트워크, 조건부 랜덤 필드(CRF) 계층(LSTM-CRF)이 있는 LSTM 및 CRF 계층(BI-LSTM-CRF)이 있는 양방향 LSTM이 포함됩니다. 저희의 연구는 양방향 LSTM CRF(BI-LSTM-CRF로 표시됨) 모델을 NLP 벤치마크 시퀀스 태그 생성 데이터 세트에 적용한 첫 번째 연구입니다. 저희는 BI-LSTM-CRF 모델이 양방향 LSTM 구성 요소 덕분에 과거 및 미래 입력 기능을 모두 효율적으로 사용할 수 있음을 보여줍니다. CRF 계층 덕분에 문장 수준 태그 정보도 사용할 수 있습니다. BI-LSTM-CRF 모델은 POS, 청킹 및 NER 데이터 세트에서 최첨단(또는 거의 근접)의 정확도를 생성할 수 있습니다. 또한 이전 연구에 비해 견고하고 단어 임베딩에 대한 의존도가 낮습니다.
1 Introduction
음성 태그 부분(POS), 청크 및 명명된 엔터티 인식(NER)을 포함한 시퀀스 태그 지정은 전형적인 NLP 작업이었습니다. 이는 수십 년 동안 연구의 주목을 받아왔습니다. 태거의 출력은 다운스트림 응용 프로그램에 사용될 수 있습니다. 예를 들어, 사용자 검색 쿼리로 훈련된 개체명 인식기는 어떤 텍스트 영역이 제품인지 식별하여 특정 제품 광고를 활성화할 수 있습니다. 또 다른 예는 이러한 태그 정보가 검색 엔진에 의해 관련 웹 페이지를 찾는 데 사용될 수 있다는 것입니다.
대부분의 기존 시퀀스 태깅 모델은 HMM(Hidden Markov Model), MEMM(Maximum entropy Markov Model)(McCallum et al., 2000) 및 CRF(Conditional Random Fields)를 포함하는 선형 통계 모델입니다.(Lafferty 등, 2001). 시퀀스 태깅 문제를 해결하기 위해 컨볼루셔널 네트워크 기반 모델(Collobert et al., 2011)이 최근 제안되었습니다. 우리는 이러한 모델을 Conv-CRF라고 부르는데, 이는 Convolutional Network와 출력의 CRF 레이어로 구성되어 있기 때문입니다(원본 논문에서는 문장 수준 대수 우도(SSL)라는 용어가 사용되었습니다). Conv-CRF 모델은 시퀀스 태깅 작업에서 유망한 결과를 도출했습니다. 음성 언어 이해(Speech Language Understanding) 커뮤니티에서는 최근 Recurrent Neural Network(Mesnil et al., 2013; Yao et al., 2014)와 Convolutional Nets(Xu and Sarikaya, 2013) 기반 모델이 제안되었습니다. 이와 관련된 다른 연구로는 음성 인식을 위해 양방향 순환 신경망(Bidirectional Recurrent Neural Network, Bi-RNN)을 제안한 Graves 등의 연구 등이 있습니다.
본 논문에서는 시퀀스 태깅 작업을 위한 다양한 신경망 기반 모델을 제안합니다. 이러한 모델에는 LSTM 네트워크, 양방향 LSTM 네트워크(BI-LSTM), CRF 계층이 있는 LSTM 네트워크(LSTM-CRF) 및 CRF 계층이 있는 양방향 LSTM 네트워크(BI-LSTM-CRF)가 포함됩니다. 우리의 기여는 다음과 같이 요약될 수 있습니다.
1) 우리는 NLP 태깅 데이터 세트에 대해 앞서 언급한 모델의 성능을 체계적으로 비교합니다.
2) 우리의 작업은 NLP 벤치마크 시퀀스 태깅 데이터 세트에 양방향 LSTM CRF(BI-LSTM-CRF로 표시됨) 모델을 적용한 최초의 작업입니다. 이 모델은 양방향 LSTM 구성 요소 덕분에 과거 및 미래 입력 기능을 모두 사용할 수 있습니다. 또한 이 모델은 CRF 레이어 덕분에 문장 수준의 태그 정보를 사용할 수 있습니다. 우리 모델은 POS, 청크 및 NER 데이터 세트에 대해 최첨단(또는 그에 가까운) 정확도를 생성할 수 있습니다.
3) 우리는 BI-LSTM-CRF 모델이 강력하고 이전 관찰과 비교하여 단어 임베딩에 대한 의존도가 낮다는 것을 보여줍니다.(Collobert et al., 2011). 워드 임베딩에 의존하지 않고도 정확한 태깅 성능을 발휘할 수 있습니다.
논문의 나머지 부분은 다음과 같이 구성되어 있습니다. 섹션 2는 본 논문에서 사용된 시퀀스 태깅 모델에 대해 설명합니다. 섹션 3은 Training 절차를 보여줍니다. 섹션 4는 실험 결과를 보고합니다. 섹션 5는 관련 연구에 대해 논의합니다. 마지막으로 섹션 6은 결론을 도출합니다.신2 Models
이 섹션에서는 본 논문에서 사용된 모델인 LSTM, BI-LSTM, CRF, LSTM-CRF 및 BI-LSTM-CRF를 설명합니다.
2.1 LSTM Networks
순환 신경망(RNN)은 언어 모델(Mikolov et al., 2010; Mikolov et al., 2011)과 음성 인식(Graves et al., 2005)을 포함한 다양한 작업에서 유망한 결과를 산출하기 위해 사용되었습니다. RNN은 이력 정보(history information)를 기반으로 메모리를 유지하며, 이를 통해 모델은 장거리 변수(long distance features)에 따라 현재 출력을 예측할 수 있습니다. 그림 1은 입력 계층 x, 은닉 계층 h 및 출력 계층 y를 갖는 RNN 구조(Elman, 1990)를 보여줍니다. 개체명 태그 지정 컨텍스트에서 x는 입력 특징을 나타내고 y는 태그를 나타냅니다.
그림 1은 각 단어가 다른 것(O, Other) 또는 네 가지 개체 유형 = 개인(PER, Person), 위치(LOC, Location), 조직(ORG, Organization) 및 기타(MISC, Miscellaneous) 중 하나로 태그되는 명명된 개체 인식 시스템을 보여줍니다. "EU rejects German call to boycott British lamb."의 문장은 B-ORG O B-MISC O B-MISC O로 태그되며, 여기서 B(Begin)-, I(Inside)-태그는 개체의 시작 및 중간 위치를 나타냅니다.
입력층은 시간 t에서의 특성을 나타냅니다. 이 특성은 단어 특성에 대한 원-핫 인코딩, 밀집 벡터 특성, 또는 희소 특성이 될 수 있습니다. 입력 레이어는 feature 크기와 동일합니다. 출력층은 시간 t에서의 레이블에 대한 확률 분포를 나타냅니다. 레이블의 크기와 동일한 차원의 크기를 갖습니다.
feed-forward 네트워크와 비교하여 RNN은 이전의 숨겨진 상태와 현재의 숨겨진 상태(따라서 순환 계층 가중치 매개변수) 사이의 연결을 도입합니다. 이 순환층(Recurrent Layer)은 과거 정보를 저장하기 위해 설계되었습니다. 은닉층(hidden layer)과 출력층(output layer)의 값은 다음과 같이 계산됩니다.여기서 U, W, V는 훈련 시간에 계산해야 할 연결 가중치이며, f(z)와 g(z)는 다음과 같은 시그모이드 및 소프트맥스 활성화 함수입니다.입력층은 시간 t에서의 특성을 나타냅니다. 이 특성은 단어 특성에 대한 원-핫 인코딩, 밀집 벡터 특성, 또는 희소 특성이 될 수 있습니다. 입력 레이어는 feature 크기와 동일합니다. 출력층은 시간 t에서의 레이블에 대한 확률 분포를 나타냅니다. 레이블의 크기와 동일한 차원의 크기를 갖습니다.
feed-forward 네트워크와 비교하여 RNN은 이전의 숨겨진 상태와 현재의 숨겨진 상태(따라서 순환 계층 가중치 매개변수) 사이의 연결을 도입합니다. 이 순환층(Recurrent Layer)은 과거 정보를 저장하기 위해 설계되었습니다. 은닉층(hidden layer)과 출력층(output layer)의 값은 다음과 같이 계산됩니다.이 논문에서는 Long Short-Term Memory(Hochreiter and Schmidhuber, 1997; Graves et al., 2005)을 시퀀스 태깅에 적용합니다. Long Short-Term Memory 네트워크는 RNN과 동일하지만, 은닉층의 업데이트가 목적에 맞게 설계된 메모리 셀로 대체된다는 점이 다릅니다. 이로 인해 데이터의 장거리 의존성을 찾고 활용하는 데 더 우수할 수 있습니다. 아래의 Fig. 2는 단일 LSTM 메모리 셀을 보여줍니다(Graves et al., 2005).LSTM 메모리 셀은 다음과 같이 구현됩니다.
여기서 σ는 로지스틱 시그모이드 함수이고, i, f, o, c는 각각 입력 게이트(input gate), 삭제 게이트(forget gate), 출력 게이트(output gate), 셀 벡터(cell vector)를 의미합니다. 이들은 모두 은닉 벡터 h와 동일한 크기를 가집니다. 가중치 행렬의 아래 첨자들은 그 이름이 나타내는 바와 같은 의미를 가집니다. 예를 들어, Whi는 은닉-입력 게이트 행렬을, Wxo는 입력-출력 게이트 행렬을 나타냅니다. 셀에서 게이트 벡터로의 가중치 행렬들 (예: Wci)은 대각선(diagonal) 행렬이므로 각 게이트 벡터의 요소 m은 셀 벡터의 요소 m에서만 입력을 받습니다.
Fig. 3은 앞서 언급된 LSTM 메모리 셀들을 사용하는 LSTM 시퀀스 태깅 모델을 보여줍니다. 이는 점선 상자로 표시된 라운드 코너(dashed boxes with rounded corners)를 가진 LSTM 메모리 셀들을 포함하고 있습니다.2.2 Bidirectional LSTM Networks
시퀀스 태깅 작업에서는 주어진 시간 동안 과거와 미래의 입력 특성에 모두 액세스할 수 있으므로 (Graves et al., 2013)에서 제안한 대로 양방향 LSTM 네트워크(그림 4)를 활용할 수 있습니다. 이를 통해 특정 시간 프레임에 대해 과거 기능(순방향 상태를 통해)과 미래 기능(역방향 상태를 통해)을 효율적으로 사용할 수 있습니다. 우리는 시간에 따른 역전파(BPTT)를 사용하여 양방향 LSTM 네트워크를 학습시킵니다(Boden., 2002). 시간이 지남에 따라 펼쳐진 네트워크에 대한 정방향 및 역방향 전달은 모든 시간 단계에 대해 숨겨진 상태를 펼쳐야 한다는 점을 제외하면 일반 네트워크(NN) 정방향 및 역방향 전달과 유사한 방식으로 수행됩니다. 또한 데이터 포인트의 시작과 끝 부분에 특별한 처리가 필요합니다. 우리의 구현에서는 전체 문장에 대해 앞으로 및 뒤로 작업을 수행하며 각 문장마다 호출될 때 hidden state를 0으로 재설정하기만 하면 됩니다. 여러 문장을 동시에 처리할 수 있는 배치 구현이 있습니다.
2.3 CRF networks
현재 태그를 예측할 때 이웃 태그 정보를 활용하는 방법에는 두 가지가 있습니다.
첫 번째는 각 시간 단계에 대한 태그 분포를 예측한 다음 빔형 디코딩을 사용하여 최적의 태그 시퀀스를 찾는 것입니다. 최대 엔트로피 분류기(Ratnaparkhi, 1996)와 최대 엔트로피 마르코프 모델(MEMM)(McCallum et al., 2000)의 작업이 이 범주에 속합니다. 두 번째는 개별 위치 대신 문장 수준에 초점을 맞춰 조건부 무작위 필드(CRF) 모델로 이어지는 것입니다(Lafferty et al., 2001)(그림 5). 메모리 셀/반복 구성 요소가 사용되는 LSTM 및 양방향 LSTM 네트워크와 달리 입력 및 출력은 직접 연결됩니다. CRF(Conditional Random Fields)는 일반적으로 더 높은 태깅 정확도를 얻을 수 있다는 것이 보여졌습니다. 흥미로운 점은 이러한 태그 정보 사용 방식 간의 관계가 입력 특성을 사용하는 두 가지 방법(앞서 언급한 LSTM 및 BI-LSTM 네트워크 참조)과 유사하다는 것이며, 이 논문에서의 결과는 LSTM에 비해 BI-LSTM의 우월성을 확인합니다.
2.4 LSTM-CRF networks
LSTM 네트워크와 CRF 네트워크를 결합하여 그림 6과 같은 LSTM-CRF 모델을 구성합니다. 이 네트워크는 LSTM 레이어를 통해 과거 입력 특징과 CRF 레이어를 통해 문장 수준 태그 정보를 효율적으로 사용할 수 있습니다. CRF 레이어는 연속된 출력층을 연결하는 선으로 표현됩니다. CRF 레이어에는 상태 전이 행렬(state transition matrix)을 매개변수로 가집니다. 이러한 층을 사용하면 과거 및 미래 태그를 효율적으로 사용하여 현재 태그를 예측할 수 있습니다. 이는 양방향 LSTM 네트워크를 통해 과거 및 미래 입력 기능을 사용하는 것과 유사합니다.
네트워크에서 출력되는 점수 행렬 fθ([x]T1 )를 고려합니다. 표기를 간단히하기 위해 입력 [x]T1은 제외합니다. 행렬의 원소 [fθ]i,t는 매개변수 θ로 네트워크에 의해 출력된 점수로, [x]T1 문장과 i번째 태그에 대해 t번째 단어에서 출력됩니다. 우리는 연속된 시간 단계의 쌍을 위해 i번째 상태에서 j번째 상태로의 전이를 모델링하기 위해 전이 점수 [A]i,j를 소개합니다. 이 전이 행렬은 위치에 독립적입니다. 이제 네트워크의 새로운 매개변수를 θ ̃ = θ ∪ {[A]i,j ∀i, j }로 표기합니다. 문장 [x]T1과 태그 경로 [i]T1의 점수는 이제 전이 점수와 네트워크 점수의 합으로 주어집니다:
동적 프로그래밍(Rabiner, 1989)은 추론을 위한 전이행렬 [A]i,j 및 최적의 태그 시퀀스를 계산하는 데 효율적으로 사용될 수 있습니다. 자세한 내용은 (Lafferty et al., 2001)을 참조하세요.2.5 BI-LSTM-CRF networks
LSTM-CRF 네트워크와 유사하게 양방향 LSTM 네트워크와 CRF 네트워크를 결합하여 BI-LSTM-CRF 네트워크를 형성합니다(그림 7). BI-LSTM-CRF 모델은 LSTM-CRF 모델에서 사용된 과거 입력 특징과 문장 수준 태그 정보 외에 미래 입력 특징을 사용할 수 있다. 실험에서 볼 수 있듯이 추가 기능은 태깅 정확도를 높일 수 있습니다.
3 Training procedure
이 문서에 사용된 모든 모델은 일반적인 SGD 순방향 및 역방향 훈련 절차를 공유합니다. 하기 알고리즘 1에 표시된 학습 알고리즘을 설명하기 위해 가장 복잡한 모델인 BI-LSTM-CRF를 선택했습니다.
각 epoch(인공 신경망에서 전체 데이터 셋에 대해 forward pass/backward pass 과정을 거친 것을 말함. 즉, 전체 데이터 셋에 대해 한 번 학습을 완료한 상태)마다 전체 훈련 데이터를 배치로 나누고 한 번에 하나의 배치를 처리합니다. 각 배치에는 배치 크기 매개변수에 의해 결정되는 문장 목록이 포함됩니다. 실험에서는 총 길이가 100보다 크지 않은 문장을 포함한다는 의미인 100의 배치 크기를 사용합니다. 각 배치에 대해 먼저 순방향 상태와 역방향 상태 모두에 대한 순방향 전달을 포함하는 양방향 LSTM-CRF 모델 순방향 전달을 실행합니다. LSTM의 결과적으로 우리는 모든 위치의 모든 태그에 대한 출력 점수 fθ([x]T1 )를 얻습니다. 그런 다음 CRF 레이어 정방향 및 역방향 전달을 실행하여 네트워크 출력 및 상태 전환 엣지(선)에 대한 기울기를 계산합니다. 그 후, 우리는 LSTM의 순방향 및 역방향 상태 모두에 대한 역방향 전달을 포함하여 출력에서 입력으로 오류를 역전파할 수 있습니다. 마지막으로 상태 전이 행렬 [A]i,j∀i,j와 원래 양방향 LSTM 매개변수 θ를 포함하는 네트워크 매개변수를 업데이트합니다.
4 Experiments
4.1 Data
저희는 PTB(Penn TreeBank) 데이터셋(https://paperswithcode.com/dataset/penn-treebank)으로 POS 태깅, CoNLL 2000 청킹, CoNLL 2003 개체명 태깅의 세 가지 NLP 태깅 작업에 대해 LSTM, BI-LSTM, CRF, LSTM-CRF 모델을 테스트합니다. 표 1은 각각 훈련, 검증 및 테스트 세트에 대한 문장, 토큰 및 레이블의 크기를 보여줍니다.
POS는 각 단어에 구문론적 역할을 나타내는 고유한 태그를 할당합니다. 청킹에서, 각 단어는 구문 유형으로 태그가 지정됩니다. 예를 들어, 태그 B-NP는 명사구를 시작하는 단어를 나타냅니다. NER 작업에서, 각 단어는 다른 또는 4가지 개체 유형(개인, 위치, 조직 또는 기타) 중 하나로 태그가 지정됩니다. 청킹 및 NER 작업에는 BIO2 주석 표준을 사용합니다.4.2 Features
세 가지 데이터 세트에 대해 동일한 유형의 특징을 추출합니다. 기능은 철자 기능과 컨텍스트 기능으로 그룹화될 수 있습니다. 결과적으로 POS, 청킹 및 NER 데이터 세트에 대해 각각 401K, 76K 및 341K 기능이 추출되었습니다. 이러한 특징은 Stanford NER 도구(Finkel et al., 2005; Wang and Manning, 2013)에서 추출된 특징과 유사합니다. Senna 임베딩 사용을 제외하고는 POS 및 청킹 작업에 추가 데이터를 사용하지 않았습니다(섹션 4.2.3 참조). NER 작업의 경우 철자 및 컨텍스트 기능을 사용하여 성능을 보고하고 Senna 임베딩 및 Gazetteer 기능을 점진적으로 사용하여 성능을 보고합니다1.
우리는 세 개의 데이터 세트에 대해 동일한 유형의 특성을 추출합니다. 이러한 특성들은 철자 특성과 문맥 특성으로 그룹화할 수 있습니다. 결과적으로, 우리는 각각 POS, 청킹 및 개체명 인식(NER) 데이터 세트에 대해 각각 401K, 76K 및 341K 개의 특성을 추출합니다. 이러한 특성들은 Stanford NER 도구에서 추출된 특성과 유사합니다 (Finkel et al., 2005; Wang and Manning, 2013). POS 및 청킹 작업에 대해서는 Senna(NLP Software) 임베딩을 사용하는 것을 제외하고 추가 데이터를 사용하지 않았습니다 (4.2.3 절 참조). NER 작업의 경우, 우리는 철자와 문맥 특성을 사용하여 성능을 보고하며, Senna 임베딩 및 Gazetteer(사전) 특성을 추가하여 성능을 점진적으로 개선합니다.
4.2.1 Spelling features
주어진 단어에 대해 다음과 같은 특성을 추출합니다. 이는 소문자 단어 특성에 추가되는 것입니다.
• 대문자로 시작하는지 여부
• 모두 대문자인지 여부
• 모두 소문자인지 여부
• 첫글자를 제외한 대문자가 포함되었는지 여부
• 문자와 숫자가 혼합되었는지 여부
• 구두점이 포함되었는지 여부
• 글자 접두사 및 접미사 (윈도우 크기가 2에서 5인 범위)
• 아포스트로피로 끝나는지 여부 ('s)
• 글자만 포함하는지 여부, 예를 들어 I. B. M.을 IBM으로 변환
• 글자 이외의 것만 포함하는지 여부, 예를 들어 A.T.&T.을 ..&로 변환
• 단어 패턴 특성, 대문자, 소문자 및 숫자를 각각 'A', 'a', '0'으로 매핑하여 구성된 특성. 예를 들어 D56y-3을 A00a-0으로 변환
• 단어 패턴 요약 특성, 단어 패턴 특성과 유사하지만 연속적으로 동일한 문자가 제거된 것. 예를 들어 D56y-3을 A0a-0으로 변환문자, 숫자 혼용 여부4.2.2 Context features
세 가지 데이터 세트의 단어 기능에는 유니그램 기능과 바이그램 기능을 사용합니다. CoNLL2000 데이터 세트의 POS 기능과 CoNLL2003 데이터 세트의 POS & CHUNK 기능의 경우 유니그램, 바이그램 및 트라이그램 기능을 사용합니다.
n-gram is basically set of occurring words within given window so when
- n=1 it is Unigram
- n=2 it is bigram
4.2.3 Word embedding
Collobert 등(2011)의 연구에서는 단어 임베딩이 시퀀스 태깅 성능을 향상시키는 데 중요한 역할을 한다는 것이 밝혀졌습니다. 이 연구에서는 130,000 개의 어휘 크기를 가진 임베딩이 다운로드되었고, 각 단어는 50차원의 임베딩 벡터로 표현되었습니다. 이 임베딩을 사용하려면 하나의 핫 인코딩 단어 표현을 해당 50차원 벡터로 바꾸면 됩니다.
4.2.4 Features connection tricks
우리는 철자와 문맥 특성을 단어 특성과 동일하게 처리할 수 있습니다. 즉, 네트워크의 입력에는 단어, 철자 및 문맥 특성이 모두 포함됩니다. 그러나 철자와 문맥 특성에서 직접적인 연결을 출력에 만들면 훈련을 가속화하고 매우 유사한 태깅 정확도를 얻을 수 있다는 것을 발견했습니다. 그림 8은 이러한 네트워크를 보여주며, 특성들이 네트워크의 출력에 직접적으로 연결되어 있습니다. 우리는 이 연결을 사용하여 모든 태깅 정확도를 보고할 것입니다. 이러한 특성의 사용은 (Mikolov 등, 2011)에서 사용된 최대 엔트로피 특성과 유사한 특징을 가지고 있습니다. 차이점은 (Mikolov 등, 2011)에서 특성 해싱 기술이 채택되어 특성 충돌이 발생할 수 있다는 것입니다. 시퀀스 태깅 데이터 세트의 출력 라벨은 언어 모델보다 적으므로(보통 수십만 개), 특성과 출력 간의 완전한 연결을 가질 수 있어 특성 충돌을 피할 수 있습니다.
4.3 Results
우리는 각 데이터 세트에 대해 LSTM, BI-LSTM, CRF, LSTM-CRF 및 BI-LSTM-CRF 모델을 훈련합니다. 단어 임베딩을 초기화하는 방법에는 Random과 Senna라는 두 가지 방법이 있습니다. 첫 번째 카테고리에서는 단어 임베딩 벡터를 무작위로 초기화하고 두 번째 카테고리에서는 Senna 단어 임베딩을 사용합니다. 각 카테고리에 대해 동일한 기능 세트를 사용하므로 다른 결과는 전적으로 다른 네트워크로 인해 발생합니다. 훈련 데이터를 사용하여 모델을 훈련하고 검증 데이터에 대한 성능을 모니터링합니다. 청크 데이터에는 검증 데이터 세트가 없으므로 검증 목적으로 훈련 데이터의 일부를 사용합니다.
모델 학습에는 학습률 0.1을 사용합니다. 히든 레이어 크기를 300으로 설정한 결과 모델 성능이 히든 레이어 크기에 민감하지 않다는 것을 발견했습니다. 세 가지 작업에 대한 훈련은 수렴하는 데 10개 미만의 epoch가 필요하며 일반적으로 몇 시간도 채 걸리지 않습니다. 우리는 Conv-CRF로 표시된 (Collobert et al., 2011)의 최상의 결과를 나열한 표 2의 테스트 데이터 세트에 대한 모델 성능을 보고합니다. POS 작업은 단어당 정확도를 계산하여 평가되는 반면, 청크 및 NER 작업은 청크에 대한 F1 점수를 계산하여 평가됩니다.4.3.1 Comparison with Cov-CRF networks
LSTM, BI-LSTM 및 CRF의 세 가지 기준이 있습니다. LSTM은 세 가지 데이터 세트 모두에 대해 가장 약한 기준선입니다. BI-LSTM은 POS 및 청킹 데이터 세트에서 CRF에 가까운 성능을 발휘하지만 NER 데이터 세트에서는 CRF보다 성능이 떨어집니다. CRF는 실험에서 강력한 기준선을 형성합니다. 랜덤 카테고리에서는, CRF 모델이 세 데이터셋 모두에서 Conv-CRF 모델보다 우수한 성능을 보입니다. Senna 카테고리에서는, CRF가 POS 작업에서 Conv-CRF보다 우수한 성능을 보이는 반면, 청킹과 NER 작업에서는 성능이 낮습니다. LSTM-CRF 모델은 랜덤과 Senna 카테고리 모두에서 모든 데이터셋에서 CRF 모델보다 우수한 성능을 보입니다. 위 결과는 순방향 상태 LSTM 구성 요소가 시퀀스 데이터를 모델링하는 데 효과적임을 보여줍니다. BI-LSTM-CRF 모델은 LSTM-CRF 모델을 더 개선시키며, POS 데이터의 경우 랜덤 카테고리에서 LSTM-CRF 모델이 우승한 것을 제외하고는 모든 경우에 최고의 태깅 성능을 보입니다. Senna 카테고리의 CoNLL 2003의 괄호 안 숫자는 Gazetteer 특성을 사용하여 생성되었습니다.
우리의 최고 모델인 BI-LSTM-CRF가 Conv-CRF 모델에 비해 Senna 단어 임베딩에 대한 의존성이 적다는 것은 흥미롭습니다. 예를 들어, 랜덤과 Senna 카테고리 간의 태깅 차이는 POS, 청킹 및 NER 데이터셋에서 각각 0.12%, 0.33%, 4.57%입니다. 반면에 Conv-CRF 모델은 좋은 태깅 정확도를 얻기 위해 Senna 임베딩에 크게 의존합니다. POS, 청킹 및 NER 데이터셋에서 랜덤과 Senna 카테고리 간의 태깅 차이는 각각 0.92%, 3.99%, 7.20%입니다.4.3.2 Model robustness
모델의 엔지니어링된 특성(스펠링 및 문맥 특성)에 대한 모델의 견고성을 추정하기 위해, 우리는 단어 특성만을 사용하여 LSTM, BI-LSTM, CRF, LSTM-CRF 및 BI-LSTM-CRF 모델을 훈련시켰습니다(스펠링 및 문맥 특성 제거). Table 3은 제안된 모델들의 POS, 청킹 및 NER 데이터셋에 대한 태깅 성능을 보여줍니다. 괄호 안의 숫자는 동일한 모델을 사용하지만 스펠링 및 문맥 특성을 사용하지 않았을 때의 성능 저하를 나타냅니다. CRF 모델의 성능은 스펠링 및 문맥 특성을 제거함으로써 크게 저하되었습니다. 이는 CRF 모델이 좋은 성능을 얻기 위해 엔지니어링된 특성에 크게 의존한다는 사실을 드러냅니다. 반면에, 특히 BI-LSTM 및 BI-LSTM-CRF 모델을 포함한 LSTM 기반 모델들은 더 견고하며, 엔지니어링 특성을 제거함으로써 덜 영향을 받습니다. 세 가지 작업 모두에서 BI-LSTM-CRF 모델이 가장 높은 태깅 정확도를 달성합니다.
예를 들어, 스펠링 및 문맥 특성을 사용하지 않고도 동일한 모델을 적용할 때와 비교하여 CoNLL2000 청킹 작업에서 94.40의 F1 점수를 달성했습니다. 이는 약간의 저하(0.06)를 보입니다.
4.3.3 Comparison with existing systems
POS 데이터셋의 경우, 우리는 추가 데이터 리소스를 사용하든 사용하지 않더라도 최신의 태깅 정확도를 달성했습니다. POS 데이터셋은 광범위하게 테스트되었으며, 과거의 개선 사항은 표 4에서 확인할 수 있습니다. 우리의 테스트 정확도는 97.55%로, 95% 신뢰 수준에서 다른 모델들보다 상당히 우수합니다. 또한, 우리의 BI-LSTM-CRF 모델은 Senna 임베딩을 사용하지 않고도 이미 좋은 정확도에 도달했습니다.
모든 청킹 시스템의 성능은 표 5에 나와 있습니다. Kudo et al.은 CoNLL 2000 챌린지에서 93.48%의 F1 점수로 우승했습니다. 그들의 접근 방식은 SVM 기반 분류기였습니다. 그들은 나중에 결과를 93.91%까지 개선했습니다. 최근의 작업에는 CRF 기반 모델들(Sha and Pereira, 2003; McDonald et al., 2005; Sun et al., 2008)이 포함됩니다. 더 최근에는 (Shen and Sarkar, 2005)가 각 분류기가 다른 태그 표현(IOB, IOE 등)으로 훈련된 투표 분류기 체계를 사용하여 95.23%의 정확도를 달성했습니다. 우리 모델은 (Shen and Sarkar, 2005)를 제외하고 모든 보고된 시스템을 능가합니다.
NER에 대한 모든 시스템의 성능은 표 6에 나와 있습니다. (Florian et al., 2003)는 NER CoNLL 2003 챌린지에서 최고의 시스템을 제시했으며, 88.76%의 F1 점수를 기록했습니다. 그들은 다양한 머신 러닝 분류기의 조합을 사용했습니다. CoNLL 2003에서 두 번째로 우수한 수행자(Chieu., 2003)는 88.31%의 F1 점수로, 외부 개체 목록의 도움을 받았습니다. 나중에 (Ando and Zhang., 2005)는 반지도 학습 접근 방식을 사용하여 89.31%의 F1을 달성했습니다. 90.90%의 최고 F1 점수는 (Passos et al., 2014)에서 보고되었으며, 이는 관련 사전에서 정보를 활용하여 표현을 개선할 수 있는 새로운 형태의 단어 임베딩을 사용했습니다. 우리 모델은 Senna 임베딩과 개체 목록 특성을 사용하여 최고의 F1 점수인 90.10을 달성할 수 있습니다. 이는 (Passos et al., 2014)보다 낮은 F1 점수이며, 이는 다른 단어 임베딩이 사용되었기 때문일 수 있습니다. 동일한 Senna 임베딩을 사용할 경우, BI-LSTM-CRF는 Conv-CRF보다 약간 우수한 성능을 보입니다(90.10% 대 89.59%). 그러나 랜덤 임베딩을 사용하는 경우 BI-LSTM-CRF는 Conv-CRF를 크게 능가합니다(84.26% 대 81.47%).5 Discussions
우리의 작업은 둘 다 서열 태깅을 위해 심층 신경망을 활용했기 때문에 (Collobert et al., 2011)의 작업과 유사합니다. 그들의 작업에서는 컨볼루션 신경망을 사용했지만 우리의 작업에서는 양방향 LSTM 네트워크를 사용했습니다.
우리의 작업은 모두 태깅을 위해 LSTM 네트워크를 사용했기 때문에 (Hammerton, 2003; Yao et al., 2014)의 작업과 유사합니다. (Hammerton, 2003)의 성과는 인상적이지 않았습니다. Yao et al., 2014의 연구에서는 양방향 LSTM 및 CRF 레이어를 사용하지 않았으므로 태깅 정확도가 저하될 수 있습니다.
마지막으로, 우리의 연구는 (Wang and Manning, 2013)의 연구와 관련이 있습니다. 그 연구는 비선형 구조가 고차원 이산 특성 공간에서는 이점이 없다는 결론을 내렸습니다. 우리는 양방향 LSTM CRF 모델로 일관되게 동일한 특성 집합을 사용한 단일 CRF 모델보다 더 나은 태깅 정확도를 얻었음을 보여주었습니다.6 Conclusions
이 논문에서는 시퀀스 태깅을 위한 LSTM 네트워크 기반 모델의 성능을 체계적으로 비교했습니다. 우리는 NLP 벤치마크 시퀀스 태깅 데이터에 BI-LSTM-CRF 모델을 처음 적용한 작업을 제시했습니다. 우리의 모델은 POS, 청킹 및 NER 데이터셋에서 최신 기술(또는 근접한) 정확도를 달성할 수 있습니다. 게다가, 우리의 모델은 (Collobert et al., 2011)에서의 관찰과 비교해 단어 임베딩에 대한 의존성이 적습니다. 단어 임베딩에 의존하지 않고도 정확한 태깅 정확도를 달성할 수 있습니다.728x90'<DL>' 카테고리의 다른 글
Bidirectional LSTM-CRF Models for Sequence Tagging 정리 (0) 2024.03.09 Bidirectional-LSTM-CRF 논문 사전 용어 리스트 (1) 2024.02.29 청크 태깅 레이블 (0) 2024.02.28 cbow (0) 2024.02.26 워드 임베딩, cbow (1) 2024.02.25