
AI
처음 걸어가는 길, 함께 만든 성과 - 래블업x업스테이지, 독자 AI 파운데이션 모델 1차수 평가 통과 비하인드
두줄요약
업스테이지와 래블업이 독자 AI 파운데이션 모델 1차수 평가 통과 과정을 공유했습니다. 대규모 GPU 인프라 운영과 학습 최적화, 자동 복구 체계가 핵심이었습니다.
핵심 내용
- 업스테이지 컨소시엄이 정부의 독자 AI 파운데이션 모델 1차수 평가를 통과한 배경과 3개월간의 협업 과정 정리
- 래블업은 Backend.AI와 FastTrack으로 GPU 클러스터 운영, 장애 자동 복구, 부하 분산을 지원
- 업스테이지는 MoE 구조의 솔라 오픈 100B 모델을 데이터 합성, 필터링, HSDP·체크포인트·PyTorch 최적화로 학습 효율 개선
- SK텔레콤 해인 클러스터의 B200 GPU 504장을 활용해 대규모 학습과 서비스 검증을 수행
적용해볼 점
- 대규모 학습에서 컨테이너 기반 격리와 자동 재시작 체계의 중요성
- 데이터 부족은 합성·필터링·실험 검증으로 보완하는 접근
- 통신 오버헤드와 체크포인트 간격까지 포함한 학습 효율 최적화 필요
