오늘은 “데이터 병렬은 안 되는데… 그렇다고 GPU를 놀릴 순 없고…” 라는 현실적인 고민에서 출발했다.하루 종일 CUDA 지형도를 탐사하며, GPU 간 통신부터 DDP 구조까지 파고든 실전 기록을 남긴다. 1. 문제의 시작: DataParallel이 먹통이었다초기 목표는 단순했다.“GPU 두 장 있으니 DataParallel로 성능 두 배!”하지만 NVIDIA의 냉정한 진단 한 줄.nvidia-smi topo -p2p a결과는…GPU0 ↔ GPU1 : NS (Not Supported)즉, 두 GPU가 서로 직접 접근(P2P, peer-to-peer)을 지원하지 않는 구조였다.메인보드의 PCIe 토폴로지 때문인데, 이건 소프트웨어로 바꿀 수 있는 문제가 아니다. 따라서 DataParallel은 비효율, ..