우리는 달에 가기로 했습니다. - Hybrid인프라부터 네트워크 최적화까지, 무신사 AI Infra구축기
44
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 Hybrid 인프라와 네트워크 최적화로 무신사의 AI 인프라를 구축한 과정과 운영상 시행착오를 정리한 기록.
주요 내용
- 온프레미스 GPU 도입으로 지속 가능한 비용 구조 확보 및 하이브리드 클러스터 설계
- EKS Hybrid Node 연동 과정에서 CNI·애드온을 직접 구성하고 AutoMode와 Karpenter 선택으로 인한 충돌 해결 경험
- eBPF 기반 Cilium 도입과 kube-proxy 대체, NLB·HTTP3 전환으로 초저지연 및 확장성 확보
- Gateway API 기반 우선순위 라우팅과 OpenTelemetry 기반 통합 관측으로 안정성·운영 효율 향상
