Alert 시스템을 표준화하고 IaC로 운영하기
데브옵스
Alert 시스템을 표준화하고 IaC로 운영하기
두줄요약
Alert 생성과 전달, 대응 흐름을 IaC와 표준화된 Slack 메시지로 정리한 개선 과정을 소개했습니다. 반복 Alert 재사용, grouped Alert, AI 연동, 모니터링 자체 감시까지 운영 개선을 다뤘습니다.
문제 상황
- Alert 생성 경로와 전달 도구가 분산되어 있어 신규 Alert 작성과 수정 시 시행착오가 큼
- Slack으로 받은 Alert의 형식과 정보 수준이 제각각이라 빠른 상황 파악과 대응이 어려움
- Alert의 담당자, 소유권, 에스컬레이션 기준이 불명확해 대응 지연과 관리 혼선이 발생
해결 방법
- Grafana를 평가 주체로 통일하고 Terraform Module과 alerts 레포로 Alert 정의를 IaC 관리로 표준화
- Slack 메시지 포맷, 버튼, Runbook, PagerDuty 연동을 proxy에서 일관되게 처리해 응답 구조 정리
- 태그·레이블, CODEOWNERS, grouped Alert, custom action button, AI 에이전트 연동으로 대응 흐름과 책임 구조 개선
성능/운영 포인트
- Alert lifecycle과 운영 지표를 VictoriaMetrics에 수집해 MTTA, MTTR, 반복 발화, 상호작용 여부 관측
- proxy와 Grafana, CloudWatch를 조합해 모니터링 시스템 자체의 장애도 별도 감지
- 반복 Alert은 template과 matrix로 재사용해 중복 정의와 유지보수 비용 감소
