100만 TPS 로그 시스템, KEDA를 이용한 오토스케일링 적용기

데브옵스

100만 TPS 로그 시스템, KEDA를 이용한 오토스케일링 적용기

우아한 형제들

우아한 형제들2025년 11월 27일

두줄요약

KEDA로 Loki 로그 시스템의 오토스케일링을 재구성해 비용과 안정성을 함께 개선했습니다. CPU·메모리뿐 아니라 Fluentd 버퍼 메트릭을 활용하고 HPA 제약으로 과대 확장도 줄였습니다.

문제 상황

하루 수십TB, 피크 시 초당 100만 건이 넘는 로그 유입
점심·저녁 피크와 새벽 비피크의 트래픽 변동 폭이 커 기존 HPA만으로는 비용과 안정성 동시 대응 한계
Fluentd 버퍼, Loki Ingester 같은 상태성 컴포넌트의 비균등 부하와 OOM 상황에서 평균 기반 스케일링의 왜곡 발생

원인 분석

기본 HPA가 CPU·메모리 평균값만 보아 일부 Pod의 과부하를 놓치기 쉬움
재기동 Pod나 비어 있는 메모리로 인해 평균 사용률이 낮아져 스케일아웃이 지연되는 문제
로그 처리 지연이 Fluentd 버퍼 적체로 이어져 유실 위험이 커지는 구조

해결 방법

KEDA의 ScaledObject로 CPU·메모리와 Fluentd 버퍼 사용률, Prometheus 메트릭을 함께 사용
metricType과 requests 기준 Utilization 의미를 맞춰 외부 메트릭 오해석을 방지
HPA behavior 설정으로 스케일아웃 속도와 안정화 구간을 제한해 과대 확장 억제

댓글 0개

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...