“이 장애, 얼마나 심각한가요?” 사용자 경험을 기준으로 비즈니스 심각도를 정의하다
“이 장애, 얼마나 심각한가요?” 사용자 경험을 기준으로 비즈니스 심각도를 정의하다
장애 심각도를 기술 지표가 아니라 사용자 경험과 비즈니스 영향으로 정의한 사례를 소개했습니다. CUJ와 CSP, SLI, SEV를 연결해 대시보드와 얼럿 운영까지 체계화했습니다.
#SRE#SLI
28005분
장애 심각도를 기술 지표가 아니라 사용자 경험과 비즈니스 영향으로 정의한 사례를 소개했습니다. CUJ와 CSP, SLI, SEV를 연결해 대시보드와 얼럿 운영까지 체계화했습니다.

피드시스템의 반복 장애를 줄이기 위해 프로파일링과 메모리 최적화, 서킷 브레이커를 적용했습니다. 또한 PGO와 SLA/SLO/SLI 기반 모니터링으로 안정성과 성능을 함께 개선했습니다.

SRE 관점에서 SLI, SLO, SLA의 차이와 필요성을 설명하고 사용자 여정 기반으로 신뢰성을 정량화하는 방법을 소개했습니다. 또한 오류 예산을 활용해 안정성과 개발 속도를 함께 관리하는 운영 방향을 정리했습니다.