
백엔드
딜리버리 프로덕트 개발팀의 개발문화 - 로그 & 알람편
두줄요약
운영 로그의 기준을 다시 정리해 실제 장애와 가짜 에러를 구분하는 방법을 다뤘습니다. 알람 노이즈를 줄이고 빠른 인지를 위해 로그 레벨과 임계치를 팀 기준으로 조정했습니다.
문제 상황
- 운영 중 시스템 내부 흐름과 오류 지점을 빠르게 파악하기 어려운 상황
- 로그 레벨 기준이 없어 무분별한 에러 로그와 가짜 에러 알람이 발생하는 문제
원인 분석
- INFO, WARN, ERROR 기준 부재로 예외와 실제 장애가 뒤섞인 상태
- 외부 연동, 의도된 예외, 인프라 로그까지 동일한 알람 대상으로 묶인 구조
해결 방법
- 에러는 즉각 대응 대상, 경고는 빈도 기반 임계치 알람으로 구분
- 공통 범위 알람과 도메인별 별도 알람을 분리해 모니터링 주기 조정
- 의도된 예외와 패턴성 로그는 경고로 전환하거나 알람 제외 처리
