목록 보기
HPC를 여행하는 히치하이커를 위한 안내서 Part 2.
AI

HPC를 여행하는 히치하이커를 위한 안내서 Part 2.

데보션
데보션
2026년 4월 21일

두줄요약

Slurm의 내부 구조와 Job 실행 흐름을 설명하며 HPC에서의 자원 관리 방식을 정리했습니다. 또한 대화형 작업, 배치 학습, Job 배열, QOS와 Fairshare 활용법을 실무 예제로 소개했습니다.

핵심 내용

  • Slurm을 중심으로 한 HPC 스케줄러의 내부 아키텍처와 Job 라이프사이클 정리
  • slurmctld, slurmd, slurmdbd의 역할 분담과 cgroup 기반 자원 격리 구조 설명
  • srun, salloc, sbatch, Job 배열, QOS, Fairshare, Preemption 등 실전 활용법 소개
  • GPU/AI 작업에서 자원 반납, 좀비 프로세스 방지, 의존성 체이닝 같은 운영 포인트 강조

적용해볼 점

  • 대화형 디버깅과 배치 학습을 상황에 맞게 구분해 Slurm 명령 활용
  • 배열 Job으로 하이퍼파라미터 탐색 자동화
  • squeue, sacct, sshare로 대기 사유와 이력, 공정성 상태 점검

댓글 0

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...