목록 보기
일 41TB, 200억 건의 로그를 ClickStack으로 실시간 처리하기 - 호그와트 도서관 프로젝트
데브옵스

일 41TB, 200억 건의 로그를 ClickStack으로 실시간 처리하기 - 호그와트 도서관 프로젝트

카카오페이
카카오페이
2026년 2월 23일

두줄요약

OpenTelemetry와 ClickHouse로 대용량 로그 파이프라인을 다시 설계한 사례를 소개했습니다. 하루 41TB 로그를 20초 이내 처리하고 비용을 크게 줄인 과정을 정리했습니다.

문제 상황

  • 하루 41TB, 200억 건 이상으로 폭증한 로그 규모
  • OpenSearch 기반 기존 로깅 시스템의 조회 지연, 유입 지연, 비용 급증
  • Kafka Topic, Fluentd Pod, Athena 스키마 관리의 운영 복잡도 누적

해결 방법

  • OpenTelemetry와 ClickHouse 중심의 ClickStack으로 수집·처리·저장·조회 파이프라인 재설계
  • Filebeat/Fluentd/OpenSearch/Athena를 단계적으로 대체하고, 로그 타입·레벨별 라우팅과 통합 Topic 구조로 재구성
  • S3 아카이빙과 ClickHouse S3 Engine, HyperDX 조회 UI로 실시간·장기 로그 조회 일원화

성능/운영 포인트

  • OTLP Proto와 배치 전송으로 Kafka 전송 효율 개선, 처리량 대폭 향상
  • ClickHouse의 컬럼형 저장, LowCardinality, Materialized Column, 시간 단위 파티션으로 집계·조회 성능 최적화
  • 로그 지연 20초 이내, 비용 85.6% 절감, 운영 복잡도 대폭 감소

댓글 0

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...