
데브옵스
HPC를 여행하는 히치하이커를 위한 안내서 Part 3 - 8단계로 완성하는 클러스터
두줄요약
온프레미스 HPC 클러스터를 8단계로 쌓는 순서와 의존성을 정리했습니다. 기본 설정, GPU 스택, 스토리지, 스케줄러, 모니터링, 자동화가 핵심입니다.
구조와 흐름
- 온프레미스 HPC 클러스터를 하드웨어, OS, GPU 스택, 공유 스토리지, 스케줄러, 부가 컴포넌트, 모니터링, 사용자 관리 순으로 구축하는 단계별 안내
- 각 단계는 기술적 의존성을 가지며, 앞단의 인증·시간·UID·시스템 한도 설정이 흔들리면 이후 구성 전체가 불안정해지는 구조
- 분산 학습 기준으로 OS 통일, 드라이버 버전 고정, 병렬 파일시스템 검토, Slurm HA와 configless, LDAP·QOS·Fairshare, 자동화와 관측 체계가 핵심 포인트
선택 이유
- 단일 도구보다 구성 요소 간 순서와 의존성을 맞추는 것이 클러스터 안정성과 성능에 더 중요하다는 점을 강조
- 베어메탈에서 직접 구성한 경험이 클라우드 HPC의 옵션과 운영 원리를 이해하는 데 도움이 된다는 관점
적용해볼 점
- 시스템 사용자 UID/GID, 시간 동기화, Munge 키, 드라이버·PMIx·Slurm 빌드 순서 같은 기초 규칙을 표준화
- NFS와 병렬 파일시스템, 컨트롤러 HA와 공유 상태 저장소, 사용자 온보딩과 Slurm Account 등록을 함께 설계
- Ansible 기반 자동화로 구성을 코드화하고, Prometheus·Grafana·dcgm-exporter·Loki로 운영 가시성을 확보
