

HPC를 여행하는 히치하이커를 위한 안내서 Part 3 - 8단계로 완성하는 클러스터
온프레미스 HPC 클러스터를 8단계로 쌓는 순서와 의존성을 정리했습니다. 기본 설정, GPU 스택, 스토리지, 스케줄러, 모니터링, 자동화가 핵심입니다.
#HPC#Slurm
37205분
새로운 기술 블로그가 추가되었어요


온프레미스 HPC 클러스터를 8단계로 쌓는 순서와 의존성을 정리했습니다. 기본 설정, GPU 스택, 스토리지, 스케줄러, 모니터링, 자동화가 핵심입니다.


EFS 유지보수 시 새 서버의 TCP RST가 Security Group Outbound에서 차단되면 NFS I/O가 수분간 멈출 수 있었습니다. mount target에 EC2 SG 대상 All TCP Outbound를 추가하고 tcpdump로 RST 수신 여부를 확인해야 했습니다.


Kubernetes에서 NFS를 활용해 여러 파드가 동시에 읽고 쓸 수 있는 RWX 스토리지를 구성하는 방법을 정리했습니다. Ganesha 프로비저너 기반 동적 프로비저닝과 주의사항, 활용 사례를 함께 소개했습니다.


pNFS는 기존 NFS의 단일 서버 병목을 줄이기 위해 나온 병렬 파일 시스템 구조를 소개합니다. AI/ML 워크로드의 대규모 데이터 처리와 고성능 스토리지 수요에 맞는 기술로 설명했습니다.
.png)

온프레미스 쿠버네티스에서 NAS와 GPU를 함께 쓰는 구성을 다뤘습니다. RKE2, NFS, gpu-operator를 활용한 클러스터 구축 맥락을 소개했습니다.