추측이 아닌 데이터로: 3개 서비스 27개 SLO와 54개 모니터를 설정하고 배포 자동화까지 구축한 2주의 집중 작업
3개 서비스에 맞는 SLO와 모니터를 데이터 기반으로 표준화하고, 배포 중 Error Budget이 소진되지 않도록 자동화했습니다. 오탐을 줄이고 실제 비즈니스 실패를 더 정확히 탐지하는 운영 체계를 구축했습니다.
3개 서비스에 맞는 SLO와 모니터를 데이터 기반으로 표준화하고, 배포 중 Error Budget이 소진되지 않도록 자동화했습니다. 오탐을 줄이고 실제 비즈니스 실패를 더 정확히 탐지하는 운영 체계를 구축했습니다.

Claude Code Action을 GitHub Actions와 결합해 조직 공통의 AI 코드 리뷰 플랫폼으로 표준화한 사례를 소개했습니다. 중앙 통제 구조, 포크 PR 대응, 프롬프트 표준화로 일관된 품질과 확산성을 확보했습니다.

멀티 리전이라도 공유 지점이 남으면 장애가 전파될 수 있다는 점을 정리했습니다. 가용성과 복원력을 높이기 위한 격리 설계와 순차 배포 원칙을 설명했습니다.

토스페이먼츠가 경계보안부터 제로트러스트까지 보안 체계를 단계적으로 고도화한 과정을 공유했습니다. IDC와 AWS 하이브리드 환경에서 다층 방어와 지속 검증 체계를 구축했습니다.
무신사가 LLM 기반 코드 리뷰를 GitHub Actions와 Composite Action으로 표준화해 전사 인프라로 구축했습니다. 봇 노이즈 정리와 팀별 유연성을 함께 확보해 운영 가능한 AI 리뷰 체계를 만들었습니다.


Amazon EKS에 Friendli Container Add-on을 적용해 LLM 추론 성능과 비용 효율을 높이는 방법을 소개했습니다. 클러스터 준비부터 배포, 검증, 정리까지의 절차를 단계별로 안내했습니다.

클라우드 네이티브 환경에서 애플리케이션 이식성을 높이는 방법을 정리했습니다. 컨테이너, 설정 외부화, 배포 전략으로 재배포 중심의 복구와 무중단 운영을 설명했습니다.


SageMaker HyperPod에 Karpenter 기반 관리형 노드 오토스케일링이 추가되었습니다. KEDA와 함께 사용해 추론·학습 워크로드를 메트릭 기반으로 탄력적으로 확장할 수 있습니다.

LY Corporation이 대규모 지표 데이터를 다루기 위해 관측 가능성 플랫폼과 시계열 데이터베이스를 단계적으로 고도화한 과정을 소개했습니다. 또한 데이터 통합과 AI, MCP 연동을 통해 지능형 플랫폼으로 확장할 계획을 공유했습니다.

클라우드 네이티브 가용성을 서비스 경험 관점에서 재정의하고, 네 가지 설계 축으로 정리했습니다. 변경, 격리, 상태, 검증을 함께 봐야 실제 복원력을 높일 수 있다고 설명했습니다.

문서 전처리 파이프라인의 리소스 경합과 디버깅 어려움을 해결하기 위해 dagster를 도입했습니다. K8sRunLauncher와 코드 로케이션 분리로 안정성과 운영 효율을 높인 사례를 공유했습니다.

문서 전처리 파이프라인의 리소스 경합과 디버깅 어려움을 해결하기 위해 dagster를 도입했습니다. 파드 격리와 대시보드 관측성으로 안정성과 운영 효율을 높였습니다.