서비스의 건강을 수치화 할 수 있을까? — SLI/SLO

백엔드

서비스의 건강을 수치화 할 수 있을까? — SLI/SLO

무신사

무신사2025년 8월 18일

두줄요약

서비스의 건강을 수치로 보기 위해 SLI와 SLO를 정의하고 운영하는 방법을 소개했습니다. 29CM 사례를 통해 지표 설계, 모니터링, 지속 개선 체계를 설명했습니다.

핵심 내용

서비스 품질을 오류율이나 로그만으로 판단하기 어려운 문제의식
SLI로 가용성, 지연 시간, 처리량 등을 수치화하고 SLO로 내부 목표치 설정
29CM 사례에서 API 단위, 구좌 단위, 서버 통합 단위로 지표를 다르게 운영
Datadog, Prometheus, Grafana로 모니터링하고 주간 회고와 티켓 관리로 지속 개선

적용해볼 점

서비스 특성과 사용자 영향도에 맞는 SLI/SLO 설계
에러 버짓과 알림 체계를 함께 두고 운영 피로도 조절
장애 기록과 정기 리뷰를 통해 측정-개선 피드백 루프 구축

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...