우리는 달에 가기로 했습니다. - Hybrid인프라부터 네트워크 최적화까지, 무신사 AI Infra구축기

44
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 Hybrid 인프라와 네트워크 최적화로 무신사의 AI 인프라를 구축한 과정과 운영상 시행착오를 정리한 기록.

주요 내용

  • 온프레미스 GPU 도입으로 지속 가능한 비용 구조 확보 및 하이브리드 클러스터 설계
  • EKS Hybrid Node 연동 과정에서 CNI·애드온을 직접 구성하고 AutoMode와 Karpenter 선택으로 인한 충돌 해결 경험
  • eBPF 기반 Cilium 도입과 kube-proxy 대체, NLB·HTTP3 전환으로 초저지연 및 확장성 확보
  • Gateway API 기반 우선순위 라우팅과 OpenTelemetry 기반 통합 관측으로 안정성·운영 효율 향상
.

교훈

실험 기반 의사결정과 플랫폼 중립적 관측으로 지속 가능성과 효율성 추구. 앞으로 GPU Pooling·SLA-aware 라우팅·자동 운영화 등 확장 방향 제시

연관 게시글