필터 1
에러로그 하나에 깨던 새벽에서 벗어나기까지 — 상품 모니터링 진화기
올리브영
· 2026년 6월 30일
데브옵스

에러로그 하나에 깨던 새벽에서 벗어나기까지 — 상품 모니터링 진화기

상품 모니터링 체계를 Slack 알림 중심에서 DLQ 재처리, Workflow 자동 분석, 정합성 자동화로 진화시켰습니다. 사람이 개입할 일을 줄이고 장애 판단과 대응 속도를 높인 사례를 공유했습니다.

#Datadog#DLQ
0005분
AWS DevOps Agent와 Custom MCP 서버를 활용한 HYBE의 인시던트 자동 조사 체계 구축 사례
AWS
· 2026년 6월 2일
데브옵스

AWS DevOps Agent와 Custom MCP 서버를 활용한 HYBE의 인시던트 자동 조사 체계 구축 사례

HYBE는 AWS DevOps Agent와 Custom MCP 서버로 인시던트 조사와 Jira 생성을 자동화했습니다. 서비스 카탈로그와 Skill을 더해 분산된 도구와 이름 불일치 문제를 해결했습니다.

#AWS DevOps Agent#MCP
44005분
GS리테일의 AIOps Agent 기반 운영 자동화 혁신
AWS
· 2026년 4월 16일
AI

GS리테일의 AIOps Agent 기반 운영 자동화 혁신

GS리테일이 Amazon Bedrock과 MCP로 AIOps Agent를 구축해 인시던트 분석을 자동화했습니다. 평균 분석 시간을 약 30분에서 약 2분으로 줄이고 RCA 보고서와 Teams 알림까지 자동화했습니다.

#AIOps#Amazon Bedrock
67005분
Part2: 삼성계정 서비스의 Agentic AIOps, 운영환경에서 Multi-Agent 시스템으로 RCA 자동화 하기
AWS
· 2026년 3월 27일
AI

Part2: 삼성계정 서비스의 Agentic AIOps, 운영환경에서 Multi-Agent 시스템으로 RCA 자동화 하기

삼성계정 서비스의 장애 대응을 Multi-Agent 기반 Agentic AIOps로 자동화한 사례를 소개했습니다. 관측 데이터 수집, RCA, 조치 제안을 분리해 3분 47초 만에 분석을 완료했습니다.

#AIOps#LLM
37005분
ChatGPT에서 요기요 배달 쓰기 — MCP + 위젯 연동 개발기
요기요
· 2026년 3월 12일
AI

ChatGPT에서 요기요 배달 쓰기 — MCP + 위젯 연동 개발기

ChatGPT Apps SDK와 MCP로 요기요 배달 서비스를 연결한 개발 과정을 정리했습니다. 위젯, CSP, 배포 분리, 모니터링까지 실제 운영 관점의 설계가 담겼습니다.

#MCP#ChatGPT
60005분
추측이 아닌 데이터로: 3개 서비스 27개 SLO와 54개 모니터를 설정하고 배포 자동화까지 구축한 2주의 집중 작업
무신사
· 2026년 2월 22일
데브옵스

추측이 아닌 데이터로: 3개 서비스 27개 SLO와 54개 모니터를 설정하고 배포 자동화까지 구축한 2주의 집중 작업

3개 서비스에 맞는 SLO와 모니터를 데이터 기반으로 표준화하고, 배포 중 Error Budget이 소진되지 않도록 자동화했습니다. 오탐을 줄이고 실제 비즈니스 실패를 더 정확히 탐지하는 운영 체계를 구축했습니다.

#SRE#SLO
17005분
팀을 위한 Claude Code 모니터링 방법 4가지
인포그랩
· 2026년 1월 7일
AI

팀을 위한 Claude Code 모니터링 방법 4가지

Claude Code의 사용 패턴과 비용, 성능을 팀 단위로 모니터링하는 4가지 방법을 정리했습니다. OpenTelemetry, SigNoz, Datadog, claude-code-otel로 ROI와 활용도를 확인할 수 있습니다.

#Claude Code#OpenTelemetry
155005분
올리브영의 실시간 캠페인 타겟팅을 위한 CDC 전환기
올리브영
· 2025년 12월 29일
데브옵스

올리브영의 실시간 캠페인 타겟팅을 위한 CDC 전환기

ODI 배치 기반 캠페인 동기화를 OGG와 Kafka 기반 CDC로 전환한 사례를 다뤘습니다. 메시지 순서 문제는 Retry, DLT, 복구 배치로 보완했고 실시간 정합성과 운영 모니터링을 강화했습니다.

#CDC#Kafka
111005분
배포가 두렵지 않은 팀 만들기: Argo Rollouts로 카나리 배포 자동화하기
딜라이트룸
· 2025년 12월 17일
데브옵스

배포가 두렵지 않은 팀 만들기: Argo Rollouts로 카나리 배포 자동화하기

쿠버네티스 기본 배포의 한계를 줄이기 위해 Argo Rollouts로 카나리 배포를 자동화했습니다. Nginx Ingress와 Datadog 연동으로 점진적 전환과 무인 롤백 구조를 구축했습니다.

#Argo Rollouts#Kubernetes
73005분
AI 서버 모니터링 자동화: 반복적인 업무를 줄이고, 놓치던 인사이트를 얻다.
요기요
· 2025년 9월 25일
AI

AI 서버 모니터링 자동화: 반복적인 업무를 줄이고, 놓치던 인사이트를 얻다.

Datadog 모니터링 분석을 Gemini로 자동화해 주간 작업 시간을 1시간에서 5분으로 줄였습니다. 다만 이미지 분석과 비즈니스 맥락 부족으로 인한 한계는 API 데이터와 검증 과정으로 보완했습니다.

#모니터링#Gemini
127005분
메시징 시스템 QA, 정합성을 지켜낸 올리브영의 이야기
올리브영
· 2025년 9월 24일
백엔드

메시징 시스템 QA, 정합성을 지켜낸 올리브영의 이야기

실시간 메시지 기반 환경에서 데이터 정합성을 API 자동화 테스트로 검증한 사례를 소개했습니다. 정기 실행과 모니터링까지 연결해 리소스를 줄이고 운영 안정성을 높였습니다.

#API#Postman
81005분
빅뱅 배포, QA는 어떻게 살아 남았나: GMS 프로젝트 테스트 전략 백서
올리브영
· 2025년 8월 20일
기타

빅뱅 배포, QA는 어떻게 살아 남았나: GMS 프로젝트 테스트 전략 백서

빅뱅 배포 기반 GMS 구축에서 QA가 기능, 동시성, E2E, UAT를 단계적으로 설계한 사례를 다뤘습니다. 운영 이후에는 Datadog 모니터링으로 조용한 실패까지 감시하며 안정성을 높였습니다.

#빅뱅 배포#QA
20005분