

HPC를 여행하는 히치하이커를 위한 안내서 Part 3 - 8단계로 완성하는 클러스터
온프레미스 HPC 클러스터를 8단계로 쌓는 순서와 의존성을 정리했습니다. 기본 설정, GPU 스택, 스토리지, 스케줄러, 모니터링, 자동화가 핵심입니다.
#HPC#Slurm
33205분


온프레미스 HPC 클러스터를 8단계로 쌓는 순서와 의존성을 정리했습니다. 기본 설정, GPU 스택, 스토리지, 스케줄러, 모니터링, 자동화가 핵심입니다.


Slurm의 내부 구조와 Job 실행 흐름을 설명하며 HPC에서의 자원 관리 방식을 정리했습니다. 또한 대화형 작업, 배치 학습, Job 배열, QOS와 Fairshare 활용법을 실무 예제로 소개했습니다.


Slurm의 내부 구조와 Job 처리 흐름을 중심으로 HPC 스케줄러 활용법을 정리했습니다. 대화형·배치·배열 작업과 QOS, Fairshare, 선점, 의존성 연결까지 실무 패턴을 설명했습니다.


AI 모델 개발에서 GPU를 효율적으로 쓰기 위한 HPC의 필요성과 기본 구성요소를 설명했습니다. Slurm, 공유 스토리지, 컨테이너를 통해 대규모 학습 환경을 일관되게 운영하는 방법을 소개했습니다.


Amazon DCV는 HPC on AWS의 시각화 레이어를 담당하는 원격 스트리밍 프로토콜로 소개했습니다. CAD/CAE 등 고성능 그래픽 작업을 클라우드와 온프레미스에서 안전하게 원격 제공하는 방법을 설명했습니다.


Amazon FSx for Lustre의 스토리지 옵션, 압축, S3 연동, 신규 성능 기능과 모니터링 방법을 정리했습니다. 또한 사용 방법과 제약 사항까지 함께 소개했습니다.