728x90

<DL> 9

GPU 두 대로 학습 속도 개선한 후기(data parallel 활용)

모델 학습 속도를 높이기 위해 RTX 6000 GPU 2대를 활용했습니다.처음에는 여러 병렬화 기법을 검토했는데, 상황에 따라 효율이 크게 달라서 선택이 중요했습니다. 1. 병렬화 방식 검토 딥러닝 모델을 여러 GPU에서 학습시킬 때 주로 사용하는 병렬화 방식은 다음과 같습니다: Data Parallel→ 학습 후 각 GPU의 gradient를 평균내 업데이트.→ CNN 계열 모델에서 가장 일반적이고 구현이 간단함.→ 각 GPU에 동일한 모델을 복제하고, 데이터를 분할해 병렬 학습.Model Parallel / Tensor Parallel→ 거대한 파라미터(수십억 단위)를 가진 대형 모델에서 유용하지만, CNN처럼 상대적으로 작은 모델에서는 오히려 통신 비용이 커서 비효율적임. 2. 선택한 방식: ..

<DL> 2025.11.04

Bidirectional-LSTM-CRF 논문 번역

Abstract 이 논문에서는 시퀀스 태깅을 위한 다양한 LSTM(Long Short-Term Memory) 기반 모델을 제안합니다. 이러한 모델에는 LSTM 네트워크, 양방향 LSTM(BI-LSTM) 네트워크, 조건부 랜덤 필드(CRF) 계층(LSTM-CRF)이 있는 LSTM 및 CRF 계층(BI-LSTM-CRF)이 있는 양방향 LSTM이 포함됩니다. 저희의 연구는 양방향 LSTM CRF(BI-LSTM-CRF로 표시됨) 모델을 NLP 벤치마크 시퀀스 태그 생성 데이터 세트에 적용한 첫 번째 연구입니다. 저희는 BI-LSTM-CRF 모델이 양방향 LSTM 구성 요소 덕분에 과거 및 미래 입력 기능을 모두 효율적으로 사용할 수 있음을 보여줍니다. CRF 계층 덕분에 문장 수준 태그 정보도 사용할 수 있습니..

<DL> 2024.02.29

Bidirectional-LSTM-CRF 논문 사전 용어 리스트

Sequence Tagging : 입력 시퀀스(문장 또는 문서)의 각 요소(단어, 토큰, 또는 문자)에 대해 레이블 또는 태그를 할당 Sequence Data : 말 그대로 순서(sequence)가 있는 데이터 예시) 시계열 데이터, 텍스트 데이터 특징) 각 시퀀스 원소들은 특정 순서를 가져 독립적이지 않다. Tagging : 텍스트에서 각 단어나 토큰에 레이블을 할당(https://wikidocs.net/24682) 품사 태깅(POS, Part-of-Speech Tagging) : 각 단어가 명사, 동사, 형용사 등의 품사 중 어떤 품사를 가지는지를 분류 ex) "The cat is sleeping."에서 "cat"은 명사(NN), "is"는 동사(VB), "sleeping"은 형용사(JJ)로 태깅 개..

<DL> 2024.02.29

청크 태깅 레이블

B-NP: 명사구(Noun Phrase)의 시작 I-NP: 명사구(Noun Phrase)의 내부 (첫 단어 이후의 명사구 요소들) B-VP: 동사구(Verb Phrase)의 시작 I-VP: 동사구(Verb Phrase)의 내부 B-PP: 전치사구(Prepositional Phrase)의 시작 I-PP: 전치사구(Prepositional Phrase)의 내부 B-ADJP: 형용사구(Adjective Phrase)의 시작 I-ADJP: 형용사구(Adjective Phrase)의 내부 B-ADVP: 부사구(Adverb Phrase)의 시작 I-ADVP: 부사구(Adverb Phrase)의 내부 B-SBAR: 부사절구(Subordinate Clause)의 시작 I-SBAR: 부사절구(Subordinate Cla..

<DL> 2024.02.28

워드 임베딩, cbow

임베딩 : 비정형화된 텍스트를 숫자로 바꿔줌으로써 사람의 언어를 컴퓨터 언어로 번역하는 것 임베딩 종류 : 빈도 기반 임베딩, 분포 기반 임베딩 임베딩의 표현 방법 : 희소표현, 밀집표현 빈도 기반 임베딩 : 단어의 빈도를 기준으로 벡터로 변환, 운수좋은 날이라는 문서의 임베딩은 [2, 1, 1]입니다. 막걸리라는 단어의 임베딩은 [0, 1, 0, 0]이며, 사랑 손님과 어머니, 삼포 가는 길이 사용하는 단어 목록이 상대적으로 많이 겹치고 있는 것을 알 수 있습니다. 빈도 기반 임베딩 단점 : 등장 횟수(빈도) 기반의 표현은 간편하지만 몇 가지 한계가 있습니다. 대표적으로 희소 문제가 있는데요. 중요한 단어이더라도 자주 등장하지 않는 단어는 학습에서 가중치를 부여받는데 한계가 있습니다. 분포 가설 : 비..

<DL> 2024.02.25
728x90