Job 워크로드를 위한 EKS Node Group 오토스케일링 도입기

2026년 4월 16일

32

AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 Job 워크로드용 EKS Node Group에 오토스케일링을 도입한 경험을 소개하는 글입니다.

핵심 내용

Job 특성: 시작과 끝이 명확하고 중단 시 재실행 비용 큼
Node 분리: Server와 Job 전용 Node Group 분리로 Server 스케일인 가능
Bin-packing: PodAffinity를 활용해 Job Pod를 소수 Node에 집중 유도하고 Kyverno로 일괄 적용
중단 방지: Cluster Autoscaler와 Karpenter의 eviction 방지 Annotation을 Kyverno로 추가
운영 이슈: 프로덕션에서 Burst 생성으로 kubelet 과부하, Image Pull 실패, EBS 쓰로틀링, CNI IP 할당 지연 발생
대응 방안: Pod Right-sizing 권장, kube-reserved 단독 적용 비효율, kubelet maxPods 제한으로 과다 집중 완화, ASG AZ Rebalancing 비활성 권고

연관 게시글

Our Journey to Autoscaling EKS Node Groups for Job Workloads

Our Journey to Autoscaling EKS Node Groups for Job Workloads

당근마켓

당근마켓 • 2026년 4월 16일

Karpenter 트러블슈팅 — 비용과 안정성 두마리 토끼 잡기

Karpenter 트러블슈팅 — 비용과 안정성 두마리 토끼 잡기

당근마켓

당근마켓 • 2025년 3월 27일

쿠버네티스 파드에 Host Network 도입기

쿠버네티스 파드에 Host Network 도입기

당근마켓

당근마켓 • 2025년 9월 25일