필터 1
[운영가이드] Kubernetes 기반 Fault-Tolerant GPU 클러스터 유지 관리
KT 클라우드
· 2026년 6월 4일
데브옵스

[운영가이드] Kubernetes 기반 Fault-Tolerant GPU 클러스터 유지 관리

Kubernetes 기반 GPU 클러스터를 안정적으로 운영하기 위한 유지 관리 방안을 정리했습니다. 자동화, 관측, 스케줄링 통합, 네트워크·보안 분리를 통해 장애 대응과 성능 안정성을 높이는 방법을 소개했습니다.

#Kubernetes#GPU
7005분
HPC를 여행하는 히치하이커를 위한 안내서 Part 3 - 8단계로 완성하는 클러스터
데보션
· 2026년 5월 20일
데브옵스

HPC를 여행하는 히치하이커를 위한 안내서 Part 3 - 8단계로 완성하는 클러스터

온프레미스 HPC 클러스터를 8단계로 쌓는 순서와 의존성을 정리했습니다. 기본 설정, GPU 스택, 스토리지, 스케줄러, 모니터링, 자동화가 핵심입니다.

#HPC#Slurm
33205분
HPC를 여행하는 히치하이커를 위한 안내서 Part 2.
데보션
· 2026년 4월 21일
AI

HPC를 여행하는 히치하이커를 위한 안내서 Part 2.

Slurm의 내부 구조와 Job 실행 흐름을 설명하며 HPC에서의 자원 관리 방식을 정리했습니다. 또한 대화형 작업, 배치 학습, Job 배열, QOS와 Fairshare 활용법을 실무 예제로 소개했습니다.

#Slurm#HPC
22005분
HPC를 여행하는 히치하이커를 위한 안내서 Part 2.
데보션
· 2026년 4월 13일
백엔드

HPC를 여행하는 히치하이커를 위한 안내서 Part 2.

Slurm의 내부 구조와 Job 처리 흐름을 중심으로 HPC 스케줄러 활용법을 정리했습니다. 대화형·배치·배열 작업과 QOS, Fairshare, 선점, 의존성 연결까지 실무 패턴을 설명했습니다.

#Slurm#HPC
29005분
Amazon SageMaker HyperPod로 슈퍼브에이아이의 비전 파운데이션 모델 ‘ZERO’ 효율적으로 대규모 분산 학습하기
AWS
· 2026년 4월 10일
AI

Amazon SageMaker HyperPod로 슈퍼브에이아이의 비전 파운데이션 모델 ‘ZERO’ 효율적으로 대규모 분산 학습하기

슈퍼브에이아이가 SageMaker HyperPod로 ZERO 모델의 대규모 분산 학습 효율을 높인 사례를 소개했습니다. 저가 리허설과 데이터 사전 로드로 비용과 학습 지연을 줄였습니다.

#Amazon SageMaker HyperPod#S3
47005분
Amazon EKS에서 Slinky를 사용하여 Slurm 배포하기
AWS
· 2026년 1월 23일
데브옵스

Amazon EKS에서 Slinky를 사용하여 Slurm 배포하기

EKS에서 Slinky로 Slurm을 배포하는 방법과 구성 요소를 소개했습니다. Kubernetes와 Slurm을 함께 써서 AI·HPC 워크로드를 효율적으로 운영하는 방안을 정리했습니다.

#Amazon EKS#Slurm
38005분
HPC를 여행하는 히치하이커를 위한 안내서 Part 1.
데보션
· 2025년 10월 16일
AI

HPC를 여행하는 히치하이커를 위한 안내서 Part 1.

AI 모델 개발에서 GPU를 효율적으로 쓰기 위한 HPC의 필요성과 기본 구성요소를 설명했습니다. Slurm, 공유 스토리지, 컨테이너를 통해 대규모 학습 환경을 일관되게 운영하는 방법을 소개했습니다.

#HPC#GPU
29005분