HPC를 여행하는 히치하이커를 위한 안내서 Part 2.
11
AI 요약

이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.

이 게시물은 Slurm 스케줄러의 내부 구조와 실전 활용법을 다루는 글입니다.

아키텍처 및 핵심 데몬

  • slurmctld/slurmd/slurmdbd 역할 및 HA 구성

Job 라이프사이클과 Worker 노드 동작

  • slurmstepd 생성, cgroup 기반 자원 격리, 사용자 권한 전환
  • SIGTERM → KillWait → SIGKILL 흐름과 cgroup 기반 완전 정리

실전 명령어와 운영 정책

  • srun/salloc 대화형, sbatch 배치, Job 배열과 분산 학습 예제
  • QOS·Fairshare·Preemption 정책과 PENDING 원인 진단·prolog/epilog 팁

연관 게시글