
백엔드
서비스의 건강을 수치화 할 수 있을까? — SLI/SLO
두줄요약
서비스의 건강을 수치로 보기 위해 SLI와 SLO를 정의하고 운영하는 방법을 소개했습니다. 29CM 사례를 통해 지표 설계, 모니터링, 지속 개선 체계를 설명했습니다.
핵심 내용
- 서비스 품질을 오류율이나 로그만으로 판단하기 어려운 문제의식
- SLI로 가용성, 지연 시간, 처리량 등을 수치화하고 SLO로 내부 목표치 설정
- 29CM 사례에서 API 단위, 구좌 단위, 서버 통합 단위로 지표를 다르게 운영
- Datadog, Prometheus, Grafana로 모니터링하고 주간 회고와 티켓 관리로 지속 개선
적용해볼 점
- 서비스 특성과 사용자 영향도에 맞는 SLI/SLO 설계
- 에러 버짓과 알림 체계를 함께 두고 운영 피로도 조절
- 장애 기록과 정기 리뷰를 통해 측정-개선 피드백 루프 구축