신뢰성 향상을 위한 SLI/SLO 활용 1편 - SLI/SLO 프레임워크 및 서비스 상태 확인 도구 LINE Status 개발기
19
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 SLI/SLO 프레임워크와 사내 서비스 상태 확인 도구인 LINE Status 개발기를 소개한 글입니다.

핵심 요약

  • SLI/SLO 도입 과정에서 발견한 공통 흐름을 바탕으로 Define·Instrument·Observe·React·Improve의 다섯 단계 프레임워크 정리
  • Confluence 템플릿으로 제공해 서비스 팀이 단계별 항목을 복제해 사용하도록 구성
  • CUJ(critical user journey) 기반으로 SLI를 정의하고 사용자 경험 중심으로 상태 판단 기준 설정
  • LINE Status는 SLI/SLO 알림을 웹훅으로 수집해 DB에 저장하고 이벤트 기반으로 상태와 이력을 자동 갱신하도록 설계
  • UI는 기능 중심 상태(예: 메시지 전송, 읽음 표시)로 노출하고 메인·상세·히스토리 페이지로 이벤트와 영향 범위를 직관적으로 제공
  • 목표는 조직 전체가 동일한 기준으로 '지금 사용자 경험에 영향이 있는가'를 판단하는 공통 창구로 SLI/SLO 확산

연관 게시글