전사 장애를 데이터로 잠재운 인프라팀의 8개월
백엔드
전사 장애를 데이터로 잠재운 인프라팀의 8개월
두줄요약
13년 된 단일 Writer 구조에서 전사 장애가 반복되자, 새로운 DB 전환보다 캐싱과 쿼리 최적화를 먼저 적용했습니다. 그 결과 Writer 연결과 응답 시간이 크게 줄고, 장애 탐지와 복구 체계도 함께 개선했습니다.
문제 상황
- 13년 된 모놀리식 구조에서 모든 사이트가 단일 DB Writer를 공유하며 전사 장애가 전파되는 상황
- 모니터는 있으나 애플리케이션 로그 수집이 미비해, 장애를 시스템보다 고객과 CX가 먼저 발견하는 관측성 부족
- 라이브 서비스를 멈추지 않고 구조를 바꿔야 하는 높은 이행 난이도
원인 분석
- 한 고객의 트래픽·코드·실수가 즉시 전사로 번지는 단일 Writer 병목
- ProxySQL 동기화 문제, Aurora Writer 포화, JS amplification 등 다양한 현상이 같은 구조적 취약점으로 수렴
- 위험 감지 체계 부재로 문제 징후를 조기에 포착하지 못함
해결 방법
- 새로운 DB 전환은 순서를 미루고, 캐싱·쿼리 최적화·DB 부하 분산 같은 기본기를 먼저 적용
- 위젯·인라인 위젯 read-through 캐싱, N+1 제거, 서브쿼리 치환, hot path memoize로 조회와 연결 압력 감소
- Aurora MySQL ZDP, Reader 재배치, Redis 6→Valkey 9 전환으로 부하를 분산하고 안정성 개선
성능/운영 포인트
- Writer 연결 피크 65~75% 감소, 위젯 쿼리 약 90% 감소
- RUM 기준 TTFB 22.16% 개선, FCP·LCP도 함께 개선
- Datadog 기반 SLI/SLO 일일 리포트, 에러버짓·Burn Rate 산출, 온콜·포스트모템으로 운영 체계 정비
