목록 보기
Config의 Amazon EKS Spot 기반 대규모 RFM 데이터 파이프라인 구축
데브옵스

Config의 Amazon EKS Spot 기반 대규모 RFM 데이터 파이프라인 구축

AWS
AWS
2026년 4월 7일

두줄요약

EKS와 Spot, RabbitMQ, KEDA, Karpenter를 결합해 대규모 데이터 전처리 파이프라인을 구축했습니다. 단일 큐 병목을 없애 비용을 크게 줄이고 처리 시간도 수 일에서 수 시간으로 단축했습니다.

문제 상황

  • RFM 학습용 대규모 비디오·액션 데이터 전처리에서 수만~수십만 에피소드의 병렬 처리 필요
  • SQS + Lambda 기반 단일 큐 구조로 인한 순차 대기 병목, Lambda 동시성·실행 시간 제약, 높은 On-Demand 비용
  • 작업 진행 상태와 실패 여부를 즉시 파악하기 어려운 제한된 운영 가시성

해결 방법

  • Amazon EKS 위에 RabbitMQ, KEDA, Karpenter, EC2 Spot Instances를 결합한 배치 파이프라인 구축
  • Job별 동적 Quorum Queue와 DLQ로 독립 실행, 자동 재시도, 자동 정리 구현
  • KEDA로 큐 길이 기반 워커 자동 확장, Karpenter로 Spot/On-Demand 노드 자동 프로비저닝

성능/운영 포인트

  • Spot 인스턴스와 워커 0개 스케일다운으로 비용 70~90% 절감
  • 처리 시간을 수 일에서 수 시간으로 단축, 1,000개 이상 Pod 동시 운영 가능
  • Quorum Queue, SIGTERM 처리, consumer timeout으로 Spot 중단 시에도 데이터 손실 완화

댓글 0

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...