Job 워크로드를 위한 EKS Node Group 오토스케일링 도입기

5
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 Job 워크로드용 EKS Node Group에 오토스케일링을 도입한 경험을 소개하는 글입니다.

핵심 내용

  • Job 특성: 시작과 끝이 명확하고 중단 시 재실행 비용 큼
  • Node 분리: Server와 Job 전용 Node Group 분리로 Server 스케일인 가능
  • Bin-packing: PodAffinity를 활용해 Job Pod를 소수 Node에 집중 유도하고 Kyverno로 일괄 적용
  • 중단 방지: Cluster Autoscaler와 Karpenter의 eviction 방지 Annotation을 Kyverno로 추가
  • 운영 이슈: 프로덕션에서 Burst 생성으로 kubelet 과부하, Image Pull 실패, EBS 쓰로틀링, CNI IP 할당 지연 발생
  • 대응 방안: Pod Right-sizing 권장, kube-reserved 단독 적용 비효율, kubelet maxPods 제한으로 과다 집중 완화, ASG AZ Rebalancing 비활성 권고

연관 게시글