목록 보기
HPC를 여행하는 히치하이커를 위한 안내서 Part 2.
백엔드

HPC를 여행하는 히치하이커를 위한 안내서 Part 2.

데보션
데보션
2026년 4월 13일

두줄요약

Slurm의 내부 구조와 Job 처리 흐름을 중심으로 HPC 스케줄러 활용법을 정리했습니다. 대화형·배치·배열 작업과 QOS, Fairshare, 선점, 의존성 연결까지 실무 패턴을 설명했습니다.

핵심 내용

  • Slurm 기반 HPC 스케줄러의 내부 구조와 Job 라이프사이클 정리
  • slurmctld, slurmd, slurmdbd 역할 분리와 cgroup 기반 자원 격리
  • srun/salloc 대화형 작업, sbatch 배치 작업, Job 배열 활용 패턴
  • QOS, Fairshare, Preemption, dependency로 공정한 자원 분배와 파이프라인 자동화

구조와 흐름

  • Job 제출부터 스케줄링, 실행, 종료, 취소까지의 단계적 처리 흐름
  • slurmstepd를 통한 사용자 코드 격리와 프로세스 트리 정리
  • GPU/노드 자원 상태에 따른 실행 가능 여부와 종료 후 클린업

적용해볼 점

  • 인터랙티브 세션은 exit와 time 제한으로 자원 점유 방지
  • 배열 Job으로 하이퍼파라미터 탐색 자동화
  • sacct, squeue, sinfo, sshare로 상태와 이력 점검
  • prolog/epilog로 자원 준비와 정리 상태 보강

댓글 0

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...