우리는 달에 가기로 했습니다. - Hybrid인프라부터 네트워크 최적화까지, 무신사 AI Infra구축기
AI 인프라를 하이브리드 구조로 재설계해 비용과 운영 리스크를 줄인 사례를 다뤘습니다. Cilium, NLB, OpenTelemetry, Gateway API로 지연과 확장성을 함께 최적화했습니다.
AI 인프라를 하이브리드 구조로 재설계해 비용과 운영 리스크를 줄인 사례를 다뤘습니다. Cilium, NLB, OpenTelemetry, Gateway API로 지연과 확장성을 함께 최적화했습니다.

OpenTelemetry와 Collector의 기본 개념, 생태계 구성요소를 정리한 발표 세션을 공유했습니다. SEER 전환 준비와 OpenTelemetry 기여 경험도 함께 소개했습니다.


Arize Phoenix로 Bedrock 멀티 에이전트의 실행 경로를 통합 추적하고 평가하는 방법을 소개했습니다. 지연시간, 토큰, 비용, MCP 동작까지 함께 관측해 디버깅과 최적화를 돕습니다.

Kubernetes 기반 마이크로서비스의 가시성을 확보하기 위해 OpenTelemetry와 SigNoz를 활용한 Observability 구축 과정을 정리했습니다. Collector 파이프라인과 Auto-Instrumentation, 운영 효율 개선 포인트를 함께 소개했습니다.


Strands Agents는 모델 중심 접근 방식으로 AI 에이전트를 간단하게 구축하고 배포할 수 있는 오픈 소스 SDK를 소개했습니다.\n프롬프트와 도구만 정의해 로컬 개발부터 프로덕션 관찰성까지 지원하는 점을 강조했습니다.


CI/CD 옵저버빌리티는 파이프라인 전 과정을 관찰해 병목과 장애 지점을 찾는 접근입니다.\n조직 목표에 맞는 메트릭을 선정하고 모니터링과 알림을 자동화하는 것이 중요합니다.


CI/CD 옵저버빌리티의 개념과 필요성, 구현 방식, 모범 관행을 정리했습니다. 조직 목표에 맞는 메트릭을 정하고 파이프라인 가시성을 높이는 방법을 다뤘습니다.


Prometheus 3.0의 주요 기능 개선과 변경 사항, 마이그레이션 시 주의점을 정리했습니다. 업그레이드 전 쿼리와 설정을 점검할 체크리스트도 함께 제시했습니다.