에러로그 하나에 깨던 새벽에서 벗어나기까지 — 상품 모니터링 진화기
상품 모니터링 체계를 Slack 알림 중심에서 DLQ 재처리, Workflow 자동 분석, 정합성 자동화로 진화시켰습니다. 사람이 개입할 일을 줄이고 장애 판단과 대응 속도를 높인 사례를 공유했습니다.
Datadog 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.
20개 표시
상품 모니터링 체계를 Slack 알림 중심에서 DLQ 재처리, Workflow 자동 분석, 정합성 자동화로 진화시켰습니다. 사람이 개입할 일을 줄이고 장애 판단과 대응 속도를 높인 사례를 공유했습니다.
세 플랫폼에 흩어진 배포 이력을 APM 트레이스 기반 신호로 통합했습니다.\n장애 스레드에 직전 배포를 자동 첨부해 대응 속도를 높였습니다.
HYBE는 AWS DevOps Agent와 Custom MCP 서버로 인시던트 조사와 Jira 생성을 자동화했습니다. 서비스 카탈로그와 Skill을 더해 분산된 도구와 이름 불일치 문제를 해결했습니다.

Datadog RUM 도입 과정에서 세션 과금 구조를 분석하고 의미 있는 세션만 남기는 전략을 적용했습니다. 봇 필터링과 샘플링 최적화로 비용을 약 90% 줄이며 관측 품질도 높였습니다.
GS리테일이 Amazon Bedrock과 MCP로 AIOps Agent를 구축해 인시던트 분석을 자동화했습니다. 평균 분석 시간을 약 30분에서 약 2분으로 줄이고 RCA 보고서와 Teams 알림까지 자동화했습니다.

삼성계정 서비스의 장애 대응을 Multi-Agent 기반 Agentic AIOps로 자동화한 사례를 소개했습니다. 관측 데이터 수집, RCA, 조치 제안을 분리해 3분 47초 만에 분석을 완료했습니다.

ChatGPT Apps SDK와 MCP로 요기요 배달 서비스를 연결한 개발 과정을 정리했습니다. 위젯, CSP, 배포 분리, 모니터링까지 실제 운영 관점의 설계가 담겼습니다.
120일 동안 AI 에이전트 실수 15건을 guardrail로 바꾸며 인프라 방어선을 강화한 기록입니다.\nCLAUDE.md와 Memory를 겹쳐 세션 한계를 보완하고, 가용성을 99.981%까지 끌어올렸습니다.
3개 서비스에 맞는 SLO와 모니터를 데이터 기반으로 표준화하고, 배포 중 Error Budget이 소진되지 않도록 자동화했습니다. 오탐을 줄이고 실제 비즈니스 실패를 더 정확히 탐지하는 운영 체계를 구축했습니다.
인프라팀이 CLAUDE.md와 정책 파일로 AI 에이전트의 행동 기준을 통일했습니다. 반복 작업을 정책화해 온보딩, 장애 대응, 자동화를 함께 개선했습니다.
Claude Code의 사용 패턴과 비용, 성능을 팀 단위로 모니터링하는 4가지 방법을 정리했습니다. OpenTelemetry, SigNoz, Datadog, claude-code-otel로 ROI와 활용도를 확인할 수 있습니다.

ODI 배치 기반 캠페인 동기화를 OGG와 Kafka 기반 CDC로 전환한 사례를 다뤘습니다. 메시지 순서 문제는 Retry, DLT, 복구 배치로 보완했고 실시간 정합성과 운영 모니터링을 강화했습니다.
쿠버네티스 기본 배포의 한계를 줄이기 위해 Argo Rollouts로 카나리 배포를 자동화했습니다. Nginx Ingress와 Datadog 연동으로 점진적 전환과 무인 롤백 구조를 구축했습니다.
Datadog 모니터링 분석을 Gemini로 자동화해 주간 작업 시간을 1시간에서 5분으로 줄였습니다. 다만 이미지 분석과 비즈니스 맥락 부족으로 인한 한계는 API 데이터와 검증 과정으로 보완했습니다.
실시간 메시지 기반 환경에서 데이터 정합성을 API 자동화 테스트로 검증한 사례를 소개했습니다. 정기 실행과 모니터링까지 연결해 리소스를 줄이고 운영 안정성을 높였습니다.

빅뱅 배포 기반 GMS 구축에서 QA가 기능, 동시성, E2E, UAT를 단계적으로 설계한 사례를 다뤘습니다. 운영 이후에는 Datadog 모니터링으로 조용한 실패까지 감시하며 안정성을 높였습니다.

서비스의 건강을 수치로 보기 위해 SLI와 SLO를 정의하고 운영하는 방법을 소개했습니다. 29CM 사례를 통해 지표 설계, 모니터링, 지속 개선 체계를 설명했습니다.

올리브영이 재고, 주문, WMS, 배송, 발주 시스템을 단계적으로 고도화한 과정을 소개했습니다. 실시간 연동과 내재화로 고객 경험과 운영 효율을 함께 개선했습니다.

올리브영 물류 시스템의 전반적 구성과 개선 과정을 정리한 글입니다. 실시간 재고, OMS, WMS, 배송최적화, 자동발주로 고객 경험과 운영 효율을 높였습니다.

올리브영이 외부 WMS 의존을 벗어나 GMS를 제로베이스로 구축한 과정을 소개했습니다. Kafka와 Kafka Streams로 Out-of-Order Events를 완화하고 출고 성능과 운영 안정성을 개선했습니다.
