
데브옵스
Config의 Amazon EKS Spot 기반 대규모 RFM 데이터 파이프라인 구축
두줄요약
EKS와 Spot, RabbitMQ, KEDA, Karpenter를 결합해 대규모 데이터 전처리 파이프라인을 구축했습니다. 단일 큐 병목을 없애 비용을 크게 줄이고 처리 시간도 수 일에서 수 시간으로 단축했습니다.
문제 상황
- RFM 학습용 대규모 비디오·액션 데이터 전처리에서 수만~수십만 에피소드의 병렬 처리 필요
- SQS + Lambda 기반 단일 큐 구조로 인한 순차 대기 병목, Lambda 동시성·실행 시간 제약, 높은 On-Demand 비용
- 작업 진행 상태와 실패 여부를 즉시 파악하기 어려운 제한된 운영 가시성
해결 방법
- Amazon EKS 위에 RabbitMQ, KEDA, Karpenter, EC2 Spot Instances를 결합한 배치 파이프라인 구축
- Job별 동적 Quorum Queue와 DLQ로 독립 실행, 자동 재시도, 자동 정리 구현
- KEDA로 큐 길이 기반 워커 자동 확장, Karpenter로 Spot/On-Demand 노드 자동 프로비저닝
성능/운영 포인트
- Spot 인스턴스와 워커 0개 스케일다운으로 비용 70~90% 절감
- 처리 시간을 수 일에서 수 시간으로 단축, 1,000개 이상 Pod 동시 운영 가능
- Quorum Queue, SIGTERM 처리, consumer timeout으로 Spot 중단 시에도 데이터 손실 완화
