모든 태그
태그

Slurm 기술 블로그 글

Slurm 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 7최신 7개 표시
홈에서 필터

최신 게시글

7개 표시

데브옵스

[운영가이드] Kubernetes 기반 Fault-Tolerant GPU 클러스터 유지 관리

Kubernetes 기반 GPU 클러스터를 안정적으로 운영하기 위한 유지 관리 방안을 정리했습니다. 자동화, 관측, 스케줄링 통합, 네트워크·보안 분리를 통해 장애 대응과 성능 안정성을 높이는 방법을 소개했습니다.

#Kubernetes#GPU#Slurm
700

데브옵스

HPC를 여행하는 히치하이커를 위한 안내서 Part 3 - 8단계로 완성하는 클러스터

온프레미스 HPC 클러스터를 8단계로 쌓는 순서와 의존성을 정리했습니다. 기본 설정, GPU 스택, 스토리지, 스케줄러, 모니터링, 자동화가 핵심입니다.

#HPC#Slurm#Ansible
3720

AI

HPC를 여행하는 히치하이커를 위한 안내서 Part 2.

Slurm의 내부 구조와 Job 실행 흐름을 설명하며 HPC에서의 자원 관리 방식을 정리했습니다. 또한 대화형 작업, 배치 학습, Job 배열, QOS와 Fairshare 활용법을 실무 예제로 소개했습니다.

#Slurm#HPC#cgroup
2300

백엔드

HPC를 여행하는 히치하이커를 위한 안내서 Part 2.

Slurm의 내부 구조와 Job 처리 흐름을 중심으로 HPC 스케줄러 활용법을 정리했습니다. 대화형·배치·배열 작업과 QOS, Fairshare, 선점, 의존성 연결까지 실무 패턴을 설명했습니다.

#Slurm#HPC#cgroup
3100

AI

Amazon SageMaker HyperPod로 슈퍼브에이아이의 비전 파운데이션 모델 ‘ZERO’ 효율적으로 대규모 분산 학습하기

슈퍼브에이아이가 SageMaker HyperPod로 ZERO 모델의 대규모 분산 학습 효율을 높인 사례를 소개했습니다. 저가 리허설과 데이터 사전 로드로 비용과 학습 지연을 줄였습니다.

#Amazon SageMaker HyperPod#S3#FSx for Lustre
4800

데브옵스

Amazon EKS에서 Slinky를 사용하여 Slurm 배포하기

EKS에서 Slinky로 Slurm을 배포하는 방법과 구성 요소를 소개했습니다. Kubernetes와 Slurm을 함께 써서 AI·HPC 워크로드를 효율적으로 운영하는 방안을 정리했습니다.

#Amazon EKS#Slurm#Kubernetes
3900

AI

HPC를 여행하는 히치하이커를 위한 안내서 Part 1.

AI 모델 개발에서 GPU를 효율적으로 쓰기 위한 HPC의 필요성과 기본 구성요소를 설명했습니다. Slurm, 공유 스토리지, 컨테이너를 통해 대규모 학습 환경을 일관되게 운영하는 방법을 소개했습니다.

#HPC#GPU#Slurm
2900