
데브옵스
Amazon EKS에서 Slinky를 사용하여 Slurm 배포하기
두줄요약
EKS에서 Slinky로 Slurm을 배포하는 방법과 구성 요소를 소개했습니다. Kubernetes와 Slurm을 함께 써서 AI·HPC 워크로드를 효율적으로 운영하는 방안을 정리했습니다.
핵심 내용
- Slinky Project를 통해 Amazon EKS 같은 Kubernetes 환경에서 Slurm 클러스터를 배포·운영하는 방식 소개
- Slurm의 결정론적 스케줄링과 Kubernetes의 동적 확장성을 결합해 AI 학습, 추론, HPC 워크로드를 통합 관리하는 접근
- Slurm operator, slurmctld, slurmdbd, slurmrestd, slurmd, 로그인 파드, 메트릭 익스포터 등 구성 요소와 역할 정리
- AWS ParallelCluster, AWS PCS, SageMaker HyperPod, Volcano, YuniKorn, Kueue 등 대안 비교
적용해볼 점
- 배치 작업과 서비스형 워크로드를 같은 인프라에서 운영해 리소스 활용률과 운영 효율을 높이는 구성 검토
- Karpenter, Cluster Autoscaler, HPA, KEDA를 활용한 작업 큐 기반 오토스케일링 적용 가능성 검토
- FSx for Lustre, Prometheus, Grafana, Deep Learning Containers 등과 결합한 AI/HPC 운영 표준화 고려
