Our Journey to Autoscaling EKS Node Groups for Job Workloads

4
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 EKS Job 워크로드용 Node Group 오토스케일링 적용 과정과 해결책을 정리한 글입니다.

문제

  • Job 워크로드는 중단 불가, 스케일인 시 노드 제거 불가
  • 전용 Job Node Group을 고정 크기로 운영하면 과잉 비용 또는 처리 지연 발생

해결책

  • 빈패킹 유도: PodAffinity로 Job Pods를 소수 노드에 집중 배치
  • 자동화 적용: Kyverno로 Argo Workflow Pods에 group: job 레이블 및 PodAffinity 주입
  • 중단 방지: Cluster Autoscaler와 Karpenter용 노드 보호 어노테이션 추가로 강제 종료 방지

연관 게시글