비용, 성능, 안정성을 목표로 한 지능형 로그 파이프라인 도입
데브옵스
비용, 성능, 안정성을 목표로 한 지능형 로그 파이프라인 도입
두줄요약
네이버 Logiss의 로그 파이프라인 운영 문제와 개선 과정을 다뤘습니다. Storm Kafka spout 수정과 멀티 토폴로지 도입으로 비용·성능·안정성을 높이려 했습니다.
핵심 내용
- 네이버 사내 통합 데이터 플랫폼 AIDA의 로그 수집·실시간 검색 파이프라인 Logiss 운영 사례
- 비용, 성능, 안정성을 목표로 기존 로그 파이프라인의 한계와 지능형 파이프라인 도입 과정 정리
- Storm Kafka spout 변경과 멀티 토폴로지 도입으로 배포 지연, 트래픽 편차, 저장 비효율 개선 시도
문제 상황
- 단일 토폴로지 Traffic-Controller로 인한 무중단·점진적 배포 불가
- 낮/새벽 트래픽 편차로 인한 과한 리소스 산정과 자원 비효율
- 중요도와 무관한 동일 처리, 실시간 검색과 랜딩 존 동시 저장에 따른 비효율
해결 방법
- KafkaConsumer assign 방식의 한계를 보완하기 위해 subscribe 기반 동작으로 전환
- storm-kafka-client 다운그레이드 대신 최신 버전에서 코드 수정으로 멀티 토폴로지 구성
- 파티션 중복 소비와 처리 지연을 줄이기 위한 토폴로지 재설계
