728x90

2025/11 9

Kubernetes + PyTorch DDP에서 NCCL ALLREDUCE 타임아웃 해결기

(NCCL_P2P_DISABLE / NCCL_IB_DISABLE 2줄로 해결) 최근 Kubernetes GPU 노드에서 PyTorch DDP(DistributedDataParallel) 학습을 돌리던 중,GPU 2장이 모두 정상적으로 할당되고 nvidia-smi도 잘 찍히는데,항상 일정 시간이 지나면 NCCL ALLREDUCE 타임아웃이 발생하면서 학습이 죽어버리는 문제가 있었다. 로그는 아래처럼 폭발적으로 길어지며 결국 DistBackendError로 종료된다.Watchdog caught collective operation timeout:WorkNCCL(SeqNum=1, OpType=ALLREDUCE)c10::DistBackendError: watchdog thread terminated with e..

<ML> 2025.11.13

✅2개의 GPU 환경에서 DDP 분산 학습 구축하기: 오늘의 기술 실험 기록

오늘은 “데이터 병렬은 안 되는데… 그렇다고 GPU를 놀릴 순 없고…” 라는 현실적인 고민에서 출발했다.하루 종일 CUDA 지형도를 탐사하며, GPU 간 통신부터 DDP 구조까지 파고든 실전 기록을 남긴다. 1. 문제의 시작: DataParallel이 먹통이었다초기 목표는 단순했다.“GPU 두 장 있으니 DataParallel로 성능 두 배!”하지만 NVIDIA의 냉정한 진단 한 줄.nvidia-smi topo -p2p a결과는…GPU0 ↔ GPU1 : NS (Not Supported)즉, 두 GPU가 서로 직접 접근(P2P, peer-to-peer)을 지원하지 않는 구조였다.메인보드의 PCIe 토폴로지 때문인데, 이건 소프트웨어로 바꿀 수 있는 문제가 아니다. 따라서 DataParallel은 비효율, ..

<ML> 2025.11.10

일반 개인 개발자가 ‘코드 저작권 등록’하는 가장 쉬운 방법

프로젝트를 지키는 가장 빠르고 확실한 법적 증명 만들기코드를 직접 작성하는 순간 저작권은 자동으로 생긴다.문제는 증명이다.누군가 먼저 만들었다고 주장하거나, 비슷한 코드로 분쟁이 생기면?바로 이때 필요한 것이 저작권 등록증이다.개인 개발자에게는 보험 같은 존재다.그리고 비용도 시간도 의외로 아주 적게 든다. 1. 어디에서 등록하나요?한국저작권위원회에서 ‘프로그램 저작물’로 등록한다.👉 https://www.copyright.or.kr문학·음악 같은 일반 저작물과 달리, 코드는 프로그램 저작물로 등록해야 한다. 2. 개인이 준비해야 할 것개인 개발자가 준비해야 할 것은 사실 딱 세 가지다.본인 인증(간편인증 또는 공동인증서)소스코드 일부(PDF)프로그램 설명서(PDF 또는 DOCX)여기서 중요한 포..

카테고리 없음 2025.11.08

포트폴리오 소재

- 타 이력서 - ml 관련 - 페더레이트 러닝 : https://ai-inform.tistory.com/entry/%ED%8E%98%EB%8D%94%EB%A0%88%EC%9D%B4%ED%8B%B0%EB%93%9C-%EB%9F%AC%EB%8B%9DFederated-Learning-%EC%9D%B4%EB%9E%80-%EC%89%AC%EC%9A%B4-%EC%84%A4%EB%AA%85 페더레이티드 러닝(Federated Learning) 이란? 쉬운 설명인공지능 분야에서 '페더레이티드 러닝(Federated Learning)'은 마치 여러 마을 사람들이 각자 집에서 공부한 내용을 공유하여 함께 똑똑해지는 것과 같습니다. 개인 정보를 보호하면서 인공지능 모ai-inform.tistory.com

카테고리 없음 2025.11.05

Hugging Face Hub 사용 가이드 gpt-oss 모델

https://huggingface.co/ Hugging Face – The AI community building the future.The Home of Machine Learning Create, discover and collaborate on ML better. We provide paid Compute and Enterprise solutions. We are building the foundation of ML tooling with the community.huggingface.co 1. 서론Hugging Face Hub는 다양한 머신러닝 모델, 데이터셋, 스페이스(Spaces)를 공유하고 협업할 수 있는 플랫폼입니다. 허가된(gated) 혹은 비공개(private) 모델의 경우에는 **..

카테고리 없음 2025.11.05

LLM 기반 MLOps 시연 중 발생한 Hugging Face Gated Model 인증 오류 정리

최근 MLOps 시연 환경에서 vLLM을 통해 gpt-oss-20b 모델을 연동하던 중 다음과 같은 오류가 발생했습니다.이 글에서는 오류 원인, 배경, 해결 방향을 단계별로 정리했습니다. 🧩 프로젝트 개요 1️⃣ 시연 구성 모델: gpt-oss-20b (OSS LLM)서빙: vLLMUI: Streamlit 기반 대화형 인터페이스 사용자는 Streamlit에서 프롬프트를 입력하고, vLLM 서버를 통해 모델 추론 결과를 실시간으로 확인할 수 있는 구조입니다. 2️⃣ 병행 작업 현대차 배터리 DPAST 모델용 MLOps 템플릿 구축전처리 / 모델 / 학습 / MLflow 로그 저장까지 자동화best_epoch 메타데이터를 MLflow에 저장하는 부분에서 시간이 다소 소요3️⃣ 남은 과업 gpt-oss-2..

카테고리 없음 2025.11.05

251105 수 작업일지

1. mlops 시연 영상 구축(llm 모델 - gpt-oss-20b 모델 활용)- 모델 / 서빙 / 스트림릿 화면 제작 ( 스트림릿 화면은 사용자를 위해)2. mlops 템플릿 만들기(현대차 배터리 dpast 모델 - 전처리 / 모델 / 학습 ) - mlflow에 best_epoch 을 저장하는 것에 시간 소요3. 남은 과업- gpt-oss-20b 연동오류(토큰이 안맞다는데 관련해서 토큰 발급 블로그 만들것) _manager.py:472} INFO - [base] (APIServer pid=21) return ModelConfig([2025-11-05T13:35:25.865+0900] {pod_manager.py:472} INFO - [base] (APISer..

카테고리 없음 2025.11.05

GPU 두 대로 학습 속도 개선한 후기(data parallel 활용)

모델 학습 속도를 높이기 위해 RTX 6000 GPU 2대를 활용했습니다.처음에는 여러 병렬화 기법을 검토했는데, 상황에 따라 효율이 크게 달라서 선택이 중요했습니다. 1. 병렬화 방식 검토 딥러닝 모델을 여러 GPU에서 학습시킬 때 주로 사용하는 병렬화 방식은 다음과 같습니다: Data Parallel→ 학습 후 각 GPU의 gradient를 평균내 업데이트.→ CNN 계열 모델에서 가장 일반적이고 구현이 간단함.→ 각 GPU에 동일한 모델을 복제하고, 데이터를 분할해 병렬 학습.Model Parallel / Tensor Parallel→ 거대한 파라미터(수십억 단위)를 가진 대형 모델에서 유용하지만, CNN처럼 상대적으로 작은 모델에서는 오히려 통신 비용이 커서 비효율적임. 2. 선택한 방식: ..

<DL> 2025.11.04
728x90