

HPC를 여행하는 히치하이커를 위한 안내서 Part 2.
Slurm의 내부 구조와 Job 실행 흐름을 설명하며 HPC에서의 자원 관리 방식을 정리했습니다. 또한 대화형 작업, 배치 학습, Job 배열, QOS와 Fairshare 활용법을 실무 예제로 소개했습니다.
#Slurm#HPC
22005분


Slurm의 내부 구조와 Job 실행 흐름을 설명하며 HPC에서의 자원 관리 방식을 정리했습니다. 또한 대화형 작업, 배치 학습, Job 배열, QOS와 Fairshare 활용법을 실무 예제로 소개했습니다.


Slurm의 내부 구조와 Job 처리 흐름을 중심으로 HPC 스케줄러 활용법을 정리했습니다. 대화형·배치·배열 작업과 QOS, Fairshare, 선점, 의존성 연결까지 실무 패턴을 설명했습니다.


Docker 컨테이너의 핵심인 네임스페이스와 cgroup을 실습 중심으로 설명했습니다. 수동 구성과 Docker 자동화 사례를 통해 자원 격리·제한 동작을 확인했습니다.


Docker 컨테이너의 핵심인 네임스페이스와 cgroup을 실습 중심으로 설명했습니다. CPU·메모리 제한과 네트워크 격리의 동작 원리도 함께 확인했습니다.


쿠버네티스 메모리 관리에서 리눅스와 cadvisor가 보는 관점 차이, 페이지 캐시, RSS/WSS를 설명했습니다. OOM 동작과 oom_score_adj의 영향까지 짚어 메모리 모니터링 기준을 정리했습니다.


쿠버네티스를 이해하기 위한 기반 기술로 cgroup v2와 CPU 컨트롤러를 실습 중심으로 설명했습니다. requests, limits, throttling, 사용률 측정의 의미를 정리해 실무 판단에 도움이 되도록 했습니다.