Our Journey to Autoscaling EKS Node Groups for Job Workloads
4
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 EKS Job 워크로드용 Node Group 오토스케일링 적용 과정과 해결책을 정리한 글입니다.
문제
- Job 워크로드는 중단 불가, 스케일인 시 노드 제거 불가
- 전용 Job Node Group을 고정 크기로 운영하면 과잉 비용 또는 처리 지연 발생
해결책
- 빈패킹 유도: PodAffinity로 Job Pods를 소수 노드에 집중 배치
- 자동화 적용: Kyverno로 Argo Workflow Pods에 group: job 레이블 및 PodAffinity 주입
- 중단 방지: Cluster Autoscaler와 Karpenter용 노드 보호 어노테이션 추가로 강제 종료 방지

