HPC를 여행하는 히치하이커를 위한 안내서 Part 3 - 8단계로 완성하는 클러스터
온프레미스 HPC 클러스터를 8단계로 쌓는 순서와 의존성을 정리했습니다. 기본 설정, GPU 스택, 스토리지, 스케줄러, 모니터링, 자동화가 핵심입니다.

Prometheus 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.
20개 표시
온프레미스 HPC 클러스터를 8단계로 쌓는 순서와 의존성을 정리했습니다. 기본 설정, GPU 스택, 스토리지, 스케줄러, 모니터링, 자동화가 핵심입니다.

SLI/SLO 도입 과정을 공통 프레임워크로 정리하고 사내 템플릿으로 확산한 사례를 소개했습니다. 또한 웹훅과 DB 기반으로 자동 갱신되는 서비스 상태 확인 도구 LINE Status를 만든 과정을 공유했습니다.

Claude Code의 세션·비용·사용량을 보기 위해 AWS 관리형 서비스로 Observability 플랫폼을 구축하는 방법을 소개했습니다. 메트릭과 이벤트를 분리해 실시간 모니터링과 심층 분석을 함께 제공했습니다.

KEDA로 Loki 로그 시스템의 오토스케일링을 재구성해 비용과 안정성을 함께 개선했습니다. CPU·메모리뿐 아니라 Fluentd 버퍼 메트릭을 활용하고 HPA 제약으로 과대 확장도 줄였습니다.
Promtail LTS 전환을 계기로 Grafana Alloy의 통합 수집 방식과 Docker 설치 방법을 소개했습니다. 로그와 메트릭을 함께 운영하려는 환경에서 Alloy 전환을 검토해볼 수 있습니다.

Grafana Alloy로 Promtail의 한계를 보완하며 로그와 메트릭을 통합 수집하는 방법을 소개했습니다. Docker 환경 설정과 운영 시 주의점을 함께 정리했습니다.

Amazon MSK의 KRaft 모드가 Zookeeper 의존성을 어떻게 줄이는지 설명했습니다. 또한 지원 버전, 마이그레이션 방법, 모니터링 포인트까지 정리했습니다.

서비스의 건강을 수치로 보기 위해 SLI와 SLO를 정의하고 운영하는 방법을 소개했습니다. 29CM 사례를 통해 지표 설계, 모니터링, 지속 개선 체계를 설명했습니다.

Vitess로 마이그레이션한 결제 시스템의 개발·운영 활용 방식을 정리했습니다.프로토콜 선택, 샤딩 구성, 모니터링과 페일오버 경험까지 함께 소개했습니다.

토스증권이 H100 GPU의 자원 낭비를 줄이기 위해 MIG 기반 GPU 가상화를 도입한 과정을 정리했습니다. Kubernetes 연동과 모니터링 설정까지 포함해 운영 관점의 적용 방법을 설명했습니다.
Kubernetes 운영 중 자주 겪는 반복 작업과 실무 함정을 줄이는 팁을 정리했습니다. Namespace, ConfigMap, Init Container, Helm, 모니터링 등 핵심 활용법을 소개했습니다.

프롬프트 품질을 정량 평가하는 방법을 Prometheus 2와 OpenAI API 실습으로 설명했습니다. 각 평가 방식의 장단점과 환각 탐지 한계를 비교하며 자동화된 평가 파이프라인 필요성을 제시했습니다.

프롬프트 성능을 정량적으로 평가하는 방법을 Prometheus 2와 OpenAI API 실습으로 소개했습니다. 문맥 평가는 강점이지만 최신 사실 검증은 도구별 한계가 있어 반복 평가가 필요합니다.

AWS GPU 스팟 인스턴스와 EKS로 GPU 모니터링 PoC를 구축하는 과정을 정리했습니다. NVIDIA GPU Operator, Prometheus, Grafana로 GPU 메트릭을 수집하고 시각화했습니다.

OBS 플랫폼에 SLI/SLO를 도입해 공용 미디어 플랫폼의 신뢰성을 측정하고 운영에 활용한 사례를 공유했습니다. 로그 기반 메트릭 수집과 Recording Rules로 대시보드 성능을 개선하고 알람 체계를 구성했습니다.

Ingress Nginx Controller의 Prometheus metric 수집 병목 현상을 다루는 글입니다. 원인 분석과 해결 방향을 정리한 1부입니다.
Ingress Nginx Controller의 Prometheus 메트릭 병목 현상을 분석한 글입니다. 대용량 트래픽 환경에서의 원인과 해결 방향을 다뤘습니다.
토스증권의 Active-Active Kafka 이중화에서 동일한 토픽명 미러링과 무한 루프 방지 방식을 소개했습니다. DLQ, 커스텀 메트릭, 클러스터 분리로 정합성과 운영성을 높인 사례입니다.

Prometheus 3.0의 주요 기능 개선과 변경 사항, 마이그레이션 시 주의점을 정리했습니다. 업그레이드 전 쿼리와 설정을 점검할 체크리스트도 함께 제시했습니다.

MinIO와 Kubernetes로 사내 오브젝트 스토리지 서비스를 구축한 과정을 정리했습니다. S3 호환성과 확장성을 바탕으로 보안, 비용, 운영 효율을 개선했습니다.
