목록 보기
Amazon EKS에서 Slinky를 사용하여 Slurm 배포하기
데브옵스

Amazon EKS에서 Slinky를 사용하여 Slurm 배포하기

AWS
AWS
2026년 1월 23일

두줄요약

EKS에서 Slinky로 Slurm을 배포하는 방법과 구성 요소를 소개했습니다. Kubernetes와 Slurm을 함께 써서 AI·HPC 워크로드를 효율적으로 운영하는 방안을 정리했습니다.

핵심 내용

  • Slinky Project를 통해 Amazon EKS 같은 Kubernetes 환경에서 Slurm 클러스터를 배포·운영하는 방식 소개
  • Slurm의 결정론적 스케줄링과 Kubernetes의 동적 확장성을 결합해 AI 학습, 추론, HPC 워크로드를 통합 관리하는 접근
  • Slurm operator, slurmctld, slurmdbd, slurmrestd, slurmd, 로그인 파드, 메트릭 익스포터 등 구성 요소와 역할 정리
  • AWS ParallelCluster, AWS PCS, SageMaker HyperPod, Volcano, YuniKorn, Kueue 등 대안 비교

적용해볼 점

  • 배치 작업과 서비스형 워크로드를 같은 인프라에서 운영해 리소스 활용률과 운영 효율을 높이는 구성 검토
  • Karpenter, Cluster Autoscaler, HPA, KEDA를 활용한 작업 큐 기반 오토스케일링 적용 가능성 검토
  • FSx for Lustre, Prometheus, Grafana, Deep Learning Containers 등과 결합한 AI/HPC 운영 표준화 고려

댓글 0

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...