728x90
최근 MLOps 시연 환경에서 vLLM을 통해 gpt-oss-20b 모델을 연동하던 중 다음과 같은 오류가 발생했습니다.
이 글에서는 오류 원인, 배경, 해결 방향을 단계별로 정리했습니다.
🧩 프로젝트 개요
1️⃣ 시연 구성
- 모델: gpt-oss-20b (OSS LLM)
- 서빙: vLLM
- UI: Streamlit 기반 대화형 인터페이스
사용자는 Streamlit에서 프롬프트를 입력하고, vLLM 서버를 통해 모델 추론 결과를 실시간으로 확인할 수 있는 구조입니다.
2️⃣ 병행 작업
- 현대차 배터리 DPAST 모델용 MLOps 템플릿 구축
- 전처리 / 모델 / 학습 / MLflow 로그 저장까지 자동화
- best_epoch 메타데이터를 MLflow에 저장하는 부분에서 시간이 다소 소요
3️⃣ 남은 과업
- gpt-oss-20b 모델 연동 인증 오류 해결
- 관련 토큰 발급 및 환경 변수 주입 과정을 블로그로 문서화
⚠️ 발생 오류 요약
로그의 핵심 부분은 다음과 같습니다:
OSError: You are trying to access a gated repo.
Make sure to have access to it at https://huggingface.co/google/gemma-2-2b-it.
401 Client Error. Access to model google/gemma-2-2b-it is restricted.
You must have access to it and be authenticated to access it.
- Hugging Face의 게이트드(Gated) 모델에 접근 중이며,
- 인증 토큰을 인식하지 못한 상태에서 요청이 전송된 상황입니다.
728x90