데브옵스
일 41TB, 200억 건의 로그를 ClickStack으로 실시간 처리하기 - 호그와트 도서관 프로젝트
두줄요약
OpenTelemetry와 ClickHouse로 대용량 로그 파이프라인을 다시 설계한 사례를 소개했습니다. 하루 41TB 로그를 20초 이내 처리하고 비용을 크게 줄인 과정을 정리했습니다.
문제 상황
- 하루 41TB, 200억 건 이상으로 폭증한 로그 규모
- OpenSearch 기반 기존 로깅 시스템의 조회 지연, 유입 지연, 비용 급증
- Kafka Topic, Fluentd Pod, Athena 스키마 관리의 운영 복잡도 누적
해결 방법
- OpenTelemetry와 ClickHouse 중심의 ClickStack으로 수집·처리·저장·조회 파이프라인 재설계
- Filebeat/Fluentd/OpenSearch/Athena를 단계적으로 대체하고, 로그 타입·레벨별 라우팅과 통합 Topic 구조로 재구성
- S3 아카이빙과 ClickHouse S3 Engine, HyperDX 조회 UI로 실시간·장기 로그 조회 일원화
성능/운영 포인트
- OTLP Proto와 배치 전송으로 Kafka 전송 효율 개선, 처리량 대폭 향상
- ClickHouse의 컬럼형 저장, LowCardinality, Materialized Column, 시간 단위 파티션으로 집계·조회 성능 최적화
- 로그 지연 20초 이내, 비용 85.6% 절감, 운영 복잡도 대폭 감소
