

HPC를 여행하는 히치하이커를 위한 안내서 Part 3 - 8단계로 완성하는 클러스터
온프레미스 HPC 클러스터를 8단계로 쌓는 순서와 의존성을 정리했습니다. 기본 설정, GPU 스택, 스토리지, 스케줄러, 모니터링, 자동화가 핵심입니다.


온프레미스 HPC 클러스터를 8단계로 쌓는 순서와 의존성을 정리했습니다. 기본 설정, GPU 스택, 스토리지, 스케줄러, 모니터링, 자동화가 핵심입니다.

SLI/SLO 도입 과정을 공통 프레임워크로 정리하고 사내 템플릿으로 확산한 사례를 소개했습니다. 또한 웹훅과 DB 기반으로 자동 갱신되는 서비스 상태 확인 도구 LINE Status를 만든 과정을 공유했습니다.


Claude Code의 세션·비용·사용량을 보기 위해 AWS 관리형 서비스로 Observability 플랫폼을 구축하는 방법을 소개했습니다. 메트릭과 이벤트를 분리해 실시간 모니터링과 심층 분석을 함께 제공했습니다.

KEDA로 Loki 로그 시스템의 오토스케일링을 재구성해 비용과 안정성을 함께 개선했습니다. CPU·메모리뿐 아니라 Fluentd 버퍼 메트릭을 활용하고 HPA 제약으로 과대 확장도 줄였습니다.


Promtail LTS 전환을 계기로 Grafana Alloy의 통합 수집 방식과 Docker 설치 방법을 소개했습니다. 로그와 메트릭을 함께 운영하려는 환경에서 Alloy 전환을 검토해볼 수 있습니다.


Grafana Alloy로 Promtail의 한계를 보완하며 로그와 메트릭을 통합 수집하는 방법을 소개했습니다. Docker 환경 설정과 운영 시 주의점을 함께 정리했습니다.


Amazon MSK의 KRaft 모드가 Zookeeper 의존성을 어떻게 줄이는지 설명했습니다. 또한 지원 버전, 마이그레이션 방법, 모니터링 포인트까지 정리했습니다.

서비스의 건강을 수치로 보기 위해 SLI와 SLO를 정의하고 운영하는 방법을 소개했습니다. 29CM 사례를 통해 지표 설계, 모니터링, 지속 개선 체계를 설명했습니다.

Vitess로 마이그레이션한 결제 시스템의 개발·운영 활용 방식을 정리했습니다.프로토콜 선택, 샤딩 구성, 모니터링과 페일오버 경험까지 함께 소개했습니다.
토스증권이 H100 GPU의 자원 낭비를 줄이기 위해 MIG 기반 GPU 가상화를 도입한 과정을 정리했습니다. Kubernetes 연동과 모니터링 설정까지 포함해 운영 관점의 적용 방법을 설명했습니다.


Kubernetes 운영 중 자주 겪는 반복 작업과 실무 함정을 줄이는 팁을 정리했습니다. Namespace, ConfigMap, Init Container, Helm, 모니터링 등 핵심 활용법을 소개했습니다.


프롬프트 품질을 정량 평가하는 방법을 Prometheus 2와 OpenAI API 실습으로 설명했습니다. 각 평가 방식의 장단점과 환각 탐지 한계를 비교하며 자동화된 평가 파이프라인 필요성을 제시했습니다.