'DDP' 태그의 글 목록

728x90

DDP 2

Kubernetes + PyTorch DDP에서 NCCL ALLREDUCE 타임아웃 해결기

(NCCL_P2P_DISABLE / NCCL_IB_DISABLE 2줄로 해결) 최근 Kubernetes GPU 노드에서 PyTorch DDP(DistributedDataParallel) 학습을 돌리던 중,GPU 2장이 모두 정상적으로 할당되고 nvidia-smi도 잘 찍히는데,항상 일정 시간이 지나면 NCCL ALLREDUCE 타임아웃이 발생하면서 학습이 죽어버리는 문제가 있었다. 로그는 아래처럼 폭발적으로 길어지며 결국 DistBackendError로 종료된다.Watchdog caught collective operation timeout:WorkNCCL(SeqNum=1, OpType=ALLREDUCE)c10::DistBackendError: watchdog thread terminated with e..

<ML> 2025.11.13

✅2개의 GPU 환경에서 DDP 분산 학습 구축하기: 오늘의 기술 실험 기록

오늘은 “데이터 병렬은 안 되는데… 그렇다고 GPU를 놀릴 순 없고…” 라는 현실적인 고민에서 출발했다.하루 종일 CUDA 지형도를 탐사하며, GPU 간 통신부터 DDP 구조까지 파고든 실전 기록을 남긴다. 1. 문제의 시작: DataParallel이 먹통이었다초기 목표는 단순했다.“GPU 두 장 있으니 DataParallel로 성능 두 배!”하지만 NVIDIA의 냉정한 진단 한 줄.nvidia-smi topo -p2p a결과는…GPU0 ↔ GPU1 : NS (Not Supported)즉, 두 GPU가 서로 직접 접근(P2P, peer-to-peer)을 지원하지 않는 구조였다.메인보드의 PCIe 토폴로지 때문인데, 이건 소프트웨어로 바꿀 수 있는 문제가 아니다. 따라서 DataParallel은 비효율, ..

<ML> 2025.11.10

9566

ML/DL, GPT 활용, 빅데이터 분석기사, 정보처리기사, SQLD, ADsP, ADP 자료 및 개념 공유 데이터 분석, SQL 개념 설명

250x250

파이썬, sql, String, R, 파라미터, 빅데이터 분석기사, SQL 프로그래머스, 데이터프레임, MySQL, date, 9566, 프로그래머스, 데이콘, 빅분기, Oracle, 실기, SQL 프로그래머스 SELECT, 빅분기 실기, dataframe, select,

Today :
Yesterday :

728x90

일	월	화	수	목	금	토
				1	2	3
4	5	6	7	8	9	10
11	12	13	14	15	16	17
18	19	20	21	22	23	24
25	26	27	28	29	30	31

DDP 2

티스토리툴바