[요기요 카오스 엔지니어링 (2)] 카오스 실험 결과 정리하기
Stage 환경에서 Locust 트래픽을 기반으로 카오스 실험 결과를 정리했습니다. Pod 지연과 외부 API 차단이 서비스와 사용자 경험에 미치는 영향을 확인하고 개선 포인트를 도출했습니다.
Stage 환경에서 Locust 트래픽을 기반으로 카오스 실험 결과를 정리했습니다. Pod 지연과 외부 API 차단이 서비스와 사용자 경험에 미치는 영향을 확인하고 개선 포인트를 도출했습니다.
무신사가 LLM 기반 코드 리뷰를 GitHub Actions와 Composite Action으로 표준화해 전사 인프라로 구축했습니다. 봇 노이즈 정리와 팀별 유연성을 함께 확보해 운영 가능한 AI 리뷰 체계를 만들었습니다.


SageMaker HyperPod에 Karpenter 기반 관리형 노드 오토스케일링이 추가되었습니다. KEDA와 함께 사용해 추론·학습 워크로드를 메트릭 기반으로 탄력적으로 확장할 수 있습니다.


Amazon ECS 기반 인프라를 Amazon EKS로 전환해 운영 유연성을 높이고 GitOps 체계를 구축했습니다. Binpacking과 Spot 전략으로 자원 활용률과 비용 효율도 크게 개선했습니다.

2025 AWS re:Invent 현장에서 확인한 AI·운영·보안의 기술 흐름을 정리했습니다. EKS 운영과 DevSecOps 자동화 사례를 중심으로 실무 인사이트를 공유했습니다.


Amazon EKS Auto Mode의 내부 구성과 동작 방식을 소개했습니다. 데이터 플레인 운영, 보안 패치, 노드 최적화를 AWS가 자동 처리하는 흐름을 설명했습니다.


Rivian은 Amazon Kinesis Video Streams와 WebRTC로 차량의 실시간 라이브 카메라 기능을 구현했습니다. 저지연 스트리밍과 강한 보안을 위해 시그널링, 인증, 리전 배치를 함께 최적화했습니다.

LGTM 스택의 개요와 Mimir, Tempo, Loki의 구조를 처음 도입 관점에서 정리했습니다. 또한 배포 모드와 운영 시 주의할 점을 함께 소개했습니다.

Grafana OnCall과 Amazon Connect를 연동해 Target Group 비정상 상태를 자동 감지하고 전화 알림까지 연결한 온콜 시스템 구축 사례입니다. 비용을 줄이면서도 담당자 식별, 알림 제어, 에스컬레이션을 하나의 흐름으로 묶었습니다.
무신사의 AI 인프라 구축과 하이브리드 운영 경험을 정리한 글입니다. 온프레미스 GPU와 AWS를 결합해 비용과 성능을 최적화하는 과정과 시행착오를 공유했습니다.
AI 인프라를 하이브리드 구조로 재설계해 비용과 운영 리스크를 줄인 사례를 다뤘습니다. Cilium, NLB, OpenTelemetry, Gateway API로 지연과 확장성을 함께 최적화했습니다.

EKS에서 EBS 볼륨의 AZ 종속성 때문에 파드 어태치 실패가 발생하는 사례를 정리했습니다. 멀티 AZ가 필요하면 Affinity로 고정하거나 EFS로 전환하는 방식이 핵심입니다.