목록 보기
추측이 아닌 데이터로: 3개 서비스 27개 SLO와 54개 모니터를 설정하고 배포 자동화까지 구축한 2주의 집중 작업
데브옵스

추측이 아닌 데이터로: 3개 서비스 27개 SLO와 54개 모니터를 설정하고 배포 자동화까지 구축한 2주의 집중 작업

무신사
무신사
2026년 2월 22일

두줄요약

3개 서비스에 맞는 SLO와 모니터를 데이터 기반으로 표준화하고, 배포 중 Error Budget이 소진되지 않도록 자동화했습니다. 오탐을 줄이고 실제 비즈니스 실패를 더 정확히 탐지하는 운영 체계를 구축했습니다.

문제 상황

  • 3개 서비스의 성격이 달라 공통 기준의 모니터링 적용이 어려운 상태
  • HTTP 상태 코드 기반 SLO가 오탐을 만들고 실제 비즈니스 실패를 놓치는 측정 오류
  • 정기 배포 때마다 일시적 오류가 Error Budget을 소진해 SLO가 깨지는 문제

원인 분석

  • 성공 판정 기준을 HTTP 2xx로만 두어 클라이언트 오류와 서버 장애를 구분하지 못한 점
  • 배포 중 발생하는 계획된 지연을 장애로 취급해 누적 지표가 왜곡된 점
  • 경험 기반 임계값 설정으로 실제 응답 시간 분포와 어긋난 수치가 들어간 점

해결 방법

  • APM error 태그 기반으로 성공률 측정 방식 전환
  • 90일 APM 데이터 분석으로 임계값과 Burn Rate를 데이터 기반 설정
  • ArgoCD Hook과 Datadog API로 SLO Correction을 배포 시작/종료에 맞춰 자동화

성능/운영 포인트

  • 3개 서비스에 27개 SLO, 54개 모니터 표준화
  • 오탐 알림 0건 달성, 배포 중 Error Budget 자동 보호
  • 장애 분석 시간과 오탐 대응 시간, 온보딩 시간 절감

적용해볼 점

  • 측정 정확도를 먼저 점검하고 필요하면 지표 정의부터 재설계
  • 추측 대신 운영 데이터를 기반으로 임계값 설정
  • 배포와 관측 도구를 연동해 계획된 작업의 지표 왜곡 자동 보정

댓글 0

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...