
11
AI 요약
이 글은 AI가 원문을 분석하여 핵심 내용을 요약한 것입니다.
이 게시물은 Slurm 스케줄러의 내부 구조와 실전 활용법을 다루는 글입니다.
아키텍처 및 핵심 데몬
- slurmctld/slurmd/slurmdbd 역할 및 HA 구성
Job 라이프사이클과 Worker 노드 동작
- slurmstepd 생성, cgroup 기반 자원 격리, 사용자 권한 전환
- SIGTERM → KillWait → SIGKILL 흐름과 cgroup 기반 완전 정리
실전 명령어와 운영 정책
- srun/salloc 대화형, sbatch 배치, Job 배열과 분산 학습 예제
- QOS·Fairshare·Preemption 정책과 PENDING 원인 진단·prolog/epilog 팁

