HPC를 여행하는 히치하이커를 위한 안내서 Part 3 - 8단계로 완성하는 클러스터
온프레미스 HPC 클러스터를 8단계로 쌓는 순서와 의존성을 정리했습니다. 기본 설정, GPU 스택, 스토리지, 스케줄러, 모니터링, 자동화가 핵심입니다.
#HPC#Slurm#Ansible
3720

NFS 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.
5개 표시
온프레미스 HPC 클러스터를 8단계로 쌓는 순서와 의존성을 정리했습니다. 기본 설정, GPU 스택, 스토리지, 스케줄러, 모니터링, 자동화가 핵심입니다.

EFS 유지보수 시 새 서버의 TCP RST가 Security Group Outbound에서 차단되면 NFS I/O가 수분간 멈출 수 있었습니다. mount target에 EC2 SG 대상 All TCP Outbound를 추가하고 tcpdump로 RST 수신 여부를 확인해야 했습니다.

Kubernetes에서 NFS를 활용해 여러 파드가 동시에 읽고 쓸 수 있는 RWX 스토리지를 구성하는 방법을 정리했습니다. Ganesha 프로비저너 기반 동적 프로비저닝과 주의사항, 활용 사례를 함께 소개했습니다.

pNFS는 기존 NFS의 단일 서버 병목을 줄이기 위해 나온 병렬 파일 시스템 구조를 소개합니다. AI/ML 워크로드의 대규모 데이터 처리와 고성능 스토리지 수요에 맞는 기술로 설명했습니다.

온프레미스 쿠버네티스에서 NAS와 GPU를 함께 쓰는 구성을 다뤘습니다. RKE2, NFS, gpu-operator를 활용한 클러스터 구축 맥락을 소개했습니다.
.png)