목록 보기
서비스의 건강을 수치화 할 수 있을까? — SLI/SLO
백엔드

서비스의 건강을 수치화 할 수 있을까? — SLI/SLO

무신사
무신사
2025년 8월 18일

두줄요약

서비스의 건강을 수치로 보기 위해 SLI와 SLO를 정의하고 운영하는 방법을 소개했습니다. 29CM 사례를 통해 지표 설계, 모니터링, 지속 개선 체계를 설명했습니다.

핵심 내용

  • 서비스 품질을 오류율이나 로그만으로 판단하기 어려운 문제의식
  • SLI로 가용성, 지연 시간, 처리량 등을 수치화하고 SLO로 내부 목표치 설정
  • 29CM 사례에서 API 단위, 구좌 단위, 서버 통합 단위로 지표를 다르게 운영
  • Datadog, Prometheus, Grafana로 모니터링하고 주간 회고와 티켓 관리로 지속 개선

적용해볼 점

  • 서비스 특성과 사용자 영향도에 맞는 SLI/SLO 설계
  • 에러 버짓과 알림 체계를 함께 두고 운영 피로도 조절
  • 장애 기록과 정기 리뷰를 통해 측정-개선 피드백 루프 구축

댓글 0

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...