전사 장애를 데이터로 잠재운 인프라팀의 8개월

백엔드

전사 장애를 데이터로 잠재운 인프라팀의 8개월

아임웹

아임웹2026년 6월 8일

두줄요약

13년 된 단일 Writer 구조에서 전사 장애가 반복되자, 새로운 DB 전환보다 캐싱과 쿼리 최적화를 먼저 적용했습니다. 그 결과 Writer 연결과 응답 시간이 크게 줄고, 장애 탐지와 복구 체계도 함께 개선했습니다.

문제 상황

13년 된 모놀리식 구조에서 모든 사이트가 단일 DB Writer를 공유하며 전사 장애가 전파되는 상황
모니터는 있으나 애플리케이션 로그 수집이 미비해, 장애를 시스템보다 고객과 CX가 먼저 발견하는 관측성 부족
라이브 서비스를 멈추지 않고 구조를 바꿔야 하는 높은 이행 난이도

원인 분석

한 고객의 트래픽·코드·실수가 즉시 전사로 번지는 단일 Writer 병목
ProxySQL 동기화 문제, Aurora Writer 포화, JS amplification 등 다양한 현상이 같은 구조적 취약점으로 수렴
위험 감지 체계 부재로 문제 징후를 조기에 포착하지 못함

해결 방법

새로운 DB 전환은 순서를 미루고, 캐싱·쿼리 최적화·DB 부하 분산 같은 기본기를 먼저 적용
위젯·인라인 위젯 read-through 캐싱, N+1 제거, 서브쿼리 치환, hot path memoize로 조회와 연결 압력 감소
Aurora MySQL ZDP, Reader 재배치, Redis 6→Valkey 9 전환으로 부하를 분산하고 안정성 개선

성능/운영 포인트

Writer 연결 피크 65~75% 감소, 위젯 쿼리 약 90% 감소
RUM 기준 TTFB 22.16% 개선, FCP·LCP도 함께 개선
Datadog 기반 SLI/SLO 일일 리포트, 에러버짓·Burn Rate 산출, 온콜·포스트모템으로 운영 체계 정비

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...