모든 태그
태그

Datadog 기술 블로그 글

Datadog 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 36최신 20개 표시
홈에서 필터

최신 게시글

20개 표시

데브옵스

에러로그 하나에 깨던 새벽에서 벗어나기까지 — 상품 모니터링 진화기

상품 모니터링 체계를 Slack 알림 중심에서 DLQ 재처리, Workflow 자동 분석, 정합성 자동화로 진화시켰습니다. 사람이 개입할 일을 줄이고 장애 판단과 대응 속도를 높인 사례를 공유했습니다.

#Datadog#DLQ#Slack
700

데브옵스

세 개의 플랫폼, 하나의 배포 관측

세 플랫폼에 흩어진 배포 이력을 APM 트레이스 기반 신호로 통합했습니다.\n장애 스레드에 직전 배포를 자동 첨부해 대응 속도를 높였습니다.

#EKS#ECS#APM
200

데브옵스

AWS DevOps Agent와 Custom MCP 서버를 활용한 HYBE의 인시던트 자동 조사 체계 구축 사례

HYBE는 AWS DevOps Agent와 Custom MCP 서버로 인시던트 조사와 Jira 생성을 자동화했습니다. 서비스 카탈로그와 Skill을 더해 분산된 도구와 이름 불일치 문제를 해결했습니다.

#AWS DevOps Agent#MCP#EKS
4500

프론트엔드

Datadog RUM 도입기: 비용을 90% 줄이기까지

Datadog RUM 도입 과정에서 세션 과금 구조를 분석하고 의미 있는 세션만 남기는 전략을 적용했습니다. 봇 필터링과 샘플링 최적화로 비용을 약 90% 줄이며 관측 품질도 높였습니다.

#Datadog#RUM#micro frontends
200

AI

GS리테일의 AIOps Agent 기반 운영 자동화 혁신

GS리테일이 Amazon Bedrock과 MCP로 AIOps Agent를 구축해 인시던트 분석을 자동화했습니다. 평균 분석 시간을 약 30분에서 약 2분으로 줄이고 RCA 보고서와 Teams 알림까지 자동화했습니다.

#AIOps#Amazon Bedrock#MCP
6800

AI

Part2: 삼성계정 서비스의 Agentic AIOps, 운영환경에서 Multi-Agent 시스템으로 RCA 자동화 하기

삼성계정 서비스의 장애 대응을 Multi-Agent 기반 Agentic AIOps로 자동화한 사례를 소개했습니다. 관측 데이터 수집, RCA, 조치 제안을 분리해 3분 47초 만에 분석을 완료했습니다.

#AIOps#LLM#MCP
3800

AI

ChatGPT에서 요기요 배달 쓰기 — MCP + 위젯 연동 개발기

ChatGPT Apps SDK와 MCP로 요기요 배달 서비스를 연결한 개발 과정을 정리했습니다. 위젯, CSP, 배포 분리, 모니터링까지 실제 운영 관점의 설계가 담겼습니다.

#MCP#ChatGPT#TypeScript
6100

데브옵스

AI가 전사 알림을 두 번 죽이다

120일 동안 AI 에이전트 실수 15건을 guardrail로 바꾸며 인프라 방어선을 강화한 기록입니다.\nCLAUDE.md와 Memory를 겹쳐 세션 한계를 보완하고, 가용성을 99.981%까지 끌어올렸습니다.

#Claude Code#AWS#Datadog
100

데브옵스

추측이 아닌 데이터로: 3개 서비스 27개 SLO와 54개 모니터를 설정하고 배포 자동화까지 구축한 2주의 집중 작업

3개 서비스에 맞는 SLO와 모니터를 데이터 기반으로 표준화하고, 배포 중 Error Budget이 소진되지 않도록 자동화했습니다. 오탐을 줄이고 실제 비즈니스 실패를 더 정확히 탐지하는 운영 체계를 구축했습니다.

#SRE#SLO#Datadog
1700

AI

4개 파트가 하나의 AI 시스템을 공유하기

인프라팀이 CLAUDE.md와 정책 파일로 AI 에이전트의 행동 기준을 통일했습니다. 반복 작업을 정책화해 온보딩, 장애 대응, 자동화를 함께 개선했습니다.

#Claude Code#Slack API#Notion API
100

AI

팀을 위한 Claude Code 모니터링 방법 4가지

Claude Code의 사용 패턴과 비용, 성능을 팀 단위로 모니터링하는 4가지 방법을 정리했습니다. OpenTelemetry, SigNoz, Datadog, claude-code-otel로 ROI와 활용도를 확인할 수 있습니다.

#Claude Code#OpenTelemetry#SigNoz
15600

데브옵스

올리브영의 실시간 캠페인 타겟팅을 위한 CDC 전환기

ODI 배치 기반 캠페인 동기화를 OGG와 Kafka 기반 CDC로 전환한 사례를 다뤘습니다. 메시지 순서 문제는 Retry, DLT, 복구 배치로 보완했고 실시간 정합성과 운영 모니터링을 강화했습니다.

#CDC#Kafka#OGG
11200

데브옵스

배포가 두렵지 않은 팀 만들기: Argo Rollouts로 카나리 배포 자동화하기

쿠버네티스 기본 배포의 한계를 줄이기 위해 Argo Rollouts로 카나리 배포를 자동화했습니다. Nginx Ingress와 Datadog 연동으로 점진적 전환과 무인 롤백 구조를 구축했습니다.

#Argo Rollouts#Kubernetes#카나리 배포
7300

AI

AI 서버 모니터링 자동화: 반복적인 업무를 줄이고, 놓치던 인사이트를 얻다.

Datadog 모니터링 분석을 Gemini로 자동화해 주간 작업 시간을 1시간에서 5분으로 줄였습니다. 다만 이미지 분석과 비즈니스 맥락 부족으로 인한 한계는 API 데이터와 검증 과정으로 보완했습니다.

#모니터링#Gemini#Datadog
12800

백엔드

메시징 시스템 QA, 정합성을 지켜낸 올리브영의 이야기

실시간 메시지 기반 환경에서 데이터 정합성을 API 자동화 테스트로 검증한 사례를 소개했습니다. 정기 실행과 모니터링까지 연결해 리소스를 줄이고 운영 안정성을 높였습니다.

#API#Postman#Teamcity
8200

기타

빅뱅 배포, QA는 어떻게 살아 남았나: GMS 프로젝트 테스트 전략 백서

빅뱅 배포 기반 GMS 구축에서 QA가 기능, 동시성, E2E, UAT를 단계적으로 설계한 사례를 다뤘습니다. 운영 이후에는 Datadog 모니터링으로 조용한 실패까지 감시하며 안정성을 높였습니다.

#빅뱅 배포#QA#test
2100

백엔드

서비스의 건강을 수치화 할 수 있을까? — SLI/SLO

서비스의 건강을 수치로 보기 위해 SLI와 SLO를 정의하고 운영하는 방법을 소개했습니다. 29CM 사례를 통해 지표 설계, 모니터링, 지속 개선 체계를 설명했습니다.

#SRE#모니터링#Prometheus
8400

아키텍처

올리브영 물류 시스템의 진화 - 고객 경험의 시작과 끝을 함께하다

올리브영이 재고, 주문, WMS, 배송, 발주 시스템을 단계적으로 고도화한 과정을 소개했습니다. 실시간 연동과 내재화로 고객 경험과 운영 효율을 함께 개선했습니다.

#AWS#Kafka#OpenSearch
10300

백엔드

올리브영 물류 시스템의 진화 - 고객 경험의 시작과 끝을 함께하다

올리브영 물류 시스템의 전반적 구성과 개선 과정을 정리한 글입니다. 실시간 재고, OMS, WMS, 배송최적화, 자동발주로 고객 경험과 운영 효율을 높였습니다.

#AWS#Kafka#OpenSearch
15200

백엔드

제로베이스 WMS 구축기: Kafka 기반 분산 물류 시스템 설계와 Out-of-Order Events 해결

올리브영이 외부 WMS 의존을 벗어나 GMS를 제로베이스로 구축한 과정을 소개했습니다. Kafka와 Kafka Streams로 Out-of-Order Events를 완화하고 출고 성능과 운영 안정성을 개선했습니다.

#Kafka#Spring Boot#Redis
18200