태그

Prometheus 기술 블로그 글

Prometheus 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 24개최신 20개 표시

#Kubernetes412 #Grafana37 #모니터링256 #Kafka228 #SRE47 #LLM995 #prompt217 #Python193 #Docker117 #OpenTelemetry24 #OpenAI API9 #Grafana Alloy2

HPC를 여행하는 히치하이커를 위한 안내서 Part 3 - 8단계로 완성하는 클러스터

온프레미스 HPC 클러스터를 8단계로 쌓는 순서와 의존성을 정리했습니다. 기본 설정, GPU 스택, 스토리지, 스케줄러, 모니터링, 자동화가 핵심입니다.

#HPC#Slurm#Ansible

3720

HPC를 여행하는 히치하이커를 위한 안내서 Part 3 - 8단계로 완성하는 클러스터

2026년 3월 19일

백엔드

신뢰성 향상을 위한 SLI/SLO 활용 1편 - SLI/SLO 프레임워크 및 서비스 상태 확인 도구 LINE Status 개발기

SLI/SLO 도입 과정을 공통 프레임워크로 정리하고 사내 템플릿으로 확산한 사례를 소개했습니다. 또한 웹훅과 DB 기반으로 자동 갱신되는 서비스 상태 확인 도구 LINE Status를 만든 과정을 공유했습니다.

#SRE#SLI/SLO#Grafana

6800

신뢰성 향상을 위한 SLI/SLO 활용 1편 - SLI/SLO 프레임워크 및 서비스 상태 확인 도구 LINE Status 개발기

2026년 3월 5일

Claude Code 비용/사용량을 한눈에: AWS에 Observability 플랫폼 구축하기

Claude Code의 세션·비용·사용량을 보기 위해 AWS 관리형 서비스로 Observability 플랫폼을 구축하는 방법을 소개했습니다. 메트릭과 이벤트를 분리해 실시간 모니터링과 심층 분석을 함께 제공했습니다.

#AWS#Observability#OpenTelemetry

9800

Claude Code 비용/사용량을 한눈에: AWS에 Observability 플랫폼 구축하기

2025년 11월 27일

데브옵스

100만 TPS 로그 시스템, KEDA를 이용한 오토스케일링 적용기

KEDA로 Loki 로그 시스템의 오토스케일링을 재구성해 비용과 안정성을 함께 개선했습니다. CPU·메모리뿐 아니라 Fluentd 버퍼 메트릭을 활용하고 HPA 제약으로 과대 확장도 줄였습니다.

#KEDA#HPA#Kubernetes

3000

100만 TPS 로그 시스템, KEDA를 이용한 오토스케일링 적용기

2025년 11월 12일

데브옵스

Grafana Alloy로 로그·메트릭 통합 수집하기 \:\ Promtail 대체·Docker 실전 가이드

Promtail LTS 전환을 계기로 Grafana Alloy의 통합 수집 방식과 Docker 설치 방법을 소개했습니다. 로그와 메트릭을 함께 운영하려는 환경에서 Alloy 전환을 검토해볼 수 있습니다.

#Grafana Alloy#Promtail#Loki

3200

$Grafana Alloy로 로그·메트릭 통합 수집하기 \:\ Promtail 대체·Docker 실전 가이드$

2025년 11월 12일

데브옵스

Grafana Alloy로 로그·메트릭 통합 수집하기 \:\ Promtail 대체·Docker 실전 가이드

Grafana Alloy로 Promtail의 한계를 보완하며 로그와 메트릭을 통합 수집하는 방법을 소개했습니다. Docker 환경 설정과 운영 시 주의점을 함께 정리했습니다.

#Grafana Alloy#Promtail#Docker

8900

$Grafana Alloy로 로그·메트릭 통합 수집하기 \:\ Promtail 대체·Docker 실전 가이드$

2025년 9월 22일

백엔드

Zookeeper에 의존하지 않는 Kafka를 준비하기 : Amazon MSK에서 KRaft 모드 사용하기

Amazon MSK의 KRaft 모드가 Zookeeper 의존성을 어떻게 줄이는지 설명했습니다. 또한 지원 버전, 마이그레이션 방법, 모니터링 포인트까지 정리했습니다.

#Kafka#Amazon MSK#KRaft

11500

Zookeeper에 의존하지 않는 Kafka를 준비하기 : Amazon MSK에서 KRaft 모드 사용하기

2025년 8월 19일

백엔드

서비스의 건강을 수치화 할 수 있을까? — SLI/SLO

서비스의 건강을 수치로 보기 위해 SLI와 SLO를 정의하고 운영하는 방법을 소개했습니다. 29CM 사례를 통해 지표 설계, 모니터링, 지속 개선 체계를 설명했습니다.

#SRE#모니터링#Prometheus

8400

2025년 8월 1일

백엔드

일 평균 30억 건을 처리하는 결제 시스템의 DB를 Vitess로 교체하기 - 2. 개발 및 운영기

Vitess로 마이그레이션한 결제 시스템의 개발·운영 활용 방식을 정리했습니다.프로토콜 선택, 샤딩 구성, 모니터링과 페일오버 경험까지 함께 소개했습니다.

#Vitess#MySQL#gRPC

21800

일 평균 30억 건을 처리하는 결제 시스템의 DB를 Vitess로 교체하기 - 2. 개발 및 운영기

2025년 7월 10일

데브옵스

GPU를 밀도 있게 쓰는 방법 - 토스증권의 GPU 가상화(MIG) 도입기

토스증권이 H100 GPU의 자원 낭비를 줄이기 위해 MIG 기반 GPU 가상화를 도입한 과정을 정리했습니다. Kubernetes 연동과 모니터링 설정까지 포함해 운영 관점의 적용 방법을 설명했습니다.

#MIG#Kubernetes#모니터링

14100

2025년 6월 17일

데브옵스

K8s Tips & Tricks – 실전 쿠버네티스 핵심 꿀팁

Kubernetes 운영 중 자주 겪는 반복 작업과 실무 함정을 줄이는 팁을 정리했습니다. Namespace, ConfigMap, Init Container, Helm, 모니터링 등 핵심 활용법을 소개했습니다.

#Kubernetes#Helm#ConfigMap

10400

2025년 6월 11일

LLM으로 프롬프트 실전 성능 평가하기 \:\ feat. Prometheus 2 & OpenAI API

프롬프트 품질을 정량 평가하는 방법을 Prometheus 2와 OpenAI API 실습으로 설명했습니다. 각 평가 방식의 장단점과 환각 탐지 한계를 비교하며 자동화된 평가 파이프라인 필요성을 제시했습니다.

#LLM#prompt#Prometheus

2200

$LLM으로 프롬프트 실전 성능 평가하기 \:\ feat. Prometheus 2 & OpenAI API$

2025년 6월 11일

LLM으로 프롬프트 실전 성능 평가하기 \:\ feat. Prometheus 2 & OpenAI API

프롬프트 성능을 정량적으로 평가하는 방법을 Prometheus 2와 OpenAI API 실습으로 소개했습니다. 문맥 평가는 강점이지만 최신 사실 검증은 도구별 한계가 있어 반복 평가가 필요합니다.

#LLM#prompt#Prometheus

5800

$LLM으로 프롬프트 실전 성능 평가하기 \:\ feat. Prometheus 2 & OpenAI API$

2025년 5월 7일

데브옵스

NVIDIA GPU Operator로 GPU 모니터링 PoC 구축하기

AWS GPU 스팟 인스턴스와 EKS로 GPU 모니터링 PoC를 구축하는 과정을 정리했습니다. NVIDIA GPU Operator, Prometheus, Grafana로 GPU 메트릭을 수집하고 시각화했습니다.

#NVIDIA GPU Operator#Kubernetes#EKS

5000

2025년 2월 28일

데브옵스

신뢰성 향상을 위한 SLI/SLO 도입 2편 - 플랫폼 적용 사례

OBS 플랫폼에 SLI/SLO를 도입해 공용 미디어 플랫폼의 신뢰성을 측정하고 운영에 활용한 사례를 공유했습니다. 로그 기반 메트릭 수집과 Recording Rules로 대시보드 성능을 개선하고 알람 체계를 구성했습니다.

#SRE#SLI#SLO

2500

2025년 1월 17일

데브옵스

Ingress Nginx Controller의 Prometheus Metric 병목 현상: 원인 분석과 해결 (1부)

Ingress Nginx Controller의 Prometheus metric 수집 병목 현상을 다루는 글입니다. 원인 분석과 해결 방향을 정리한 1부입니다.

#Prometheus#Ingress Nginx Controller#모니터링

2400

2025년 1월 17일

데브옵스

Ingress Nginx Controller의 Prometheus Metric 병목 현상: 원인 분석과 해결 (2부)

Ingress Nginx Controller의 Prometheus 메트릭 병목 현상을 분석한 글입니다. 대용량 트래픽 환경에서의 원인과 해결 방향을 다뤘습니다.

#Prometheus#nginx#모니터링

2000

2025년 1월 14일

데브옵스

토스증권 Apache Kafka 데이터센터 이중화 구성 #2: 데이터 미러링

토스증권의 Active-Active Kafka 이중화에서 동일한 토픽명 미러링과 무한 루프 방지 방식을 소개했습니다. DLQ, 커스텀 메트릭, 클러스터 분리로 정합성과 운영성을 높인 사례입니다.

#Kafka#Kubernetes#ClickHouse

3700

토스증권 Apache Kafka 데이터센터 이중화 구성 #2: 데이터 미러링

2024년 12월 17일

데브옵스

Prometheus 3.0으로 갈아타기 (feat. prometehus 3.0 업그레이드 가이드)

Prometheus 3.0의 주요 기능 개선과 변경 사항, 마이그레이션 시 주의점을 정리했습니다. 업그레이드 전 쿼리와 설정을 점검할 체크리스트도 함께 제시했습니다.

#Prometheus#OpenTelemetry#Grafana

1900

Prometheus 3.0으로 갈아타기 (feat. prometehus 3.0 업그레이드 가이드)

2024년 10월 30일

데브옵스

MinIO와 K8S로 구축하는 사내 스토리지 서비스 ‘OS’ 구축

MinIO와 Kubernetes로 사내 오브젝트 스토리지 서비스를 구축한 과정을 정리했습니다. S3 호환성과 확장성을 바탕으로 보안, 비용, 운영 효율을 개선했습니다.

#MinIO#Kubernetes#S3

3600

관련 태그

최신 게시글

HPC를 여행하는 히치하이커를 위한 안내서 Part 3 - 8단계로 완성하는 클러스터

신뢰성 향상을 위한 SLI/SLO 활용 1편 - SLI/SLO 프레임워크 및 서비스 상태 확인 도구 LINE Status 개발기

Claude Code 비용/사용량을 한눈에: AWS에 Observability 플랫폼 구축하기

100만 TPS 로그 시스템, KEDA를 이용한 오토스케일링 적용기

Grafana Alloy로 로그·메트릭 통합 수집하기 \:\ Promtail 대체·Docker 실전 가이드

Grafana Alloy로 로그·메트릭 통합 수집하기 \:\ Promtail 대체·Docker 실전 가이드

Zookeeper에 의존하지 않는 Kafka를 준비하기 : Amazon MSK에서 KRaft 모드 사용하기

서비스의 건강을 수치화 할 수 있을까? — SLI/SLO

일 평균 30억 건을 처리하는 결제 시스템의 DB를 Vitess로 교체하기 - 2. 개발 및 운영기

GPU를 밀도 있게 쓰는 방법 - 토스증권의 GPU 가상화(MIG) 도입기

K8s Tips & Tricks – 실전 쿠버네티스 핵심 꿀팁

LLM으로 프롬프트 실전 성능 평가하기 \:\ feat. Prometheus 2 & OpenAI API

LLM으로 프롬프트 실전 성능 평가하기 \:\ feat. Prometheus 2 & OpenAI API

NVIDIA GPU Operator로 GPU 모니터링 PoC 구축하기

신뢰성 향상을 위한 SLI/SLO 도입 2편 - 플랫폼 적용 사례

Ingress Nginx Controller의 Prometheus Metric 병목 현상: 원인 분석과 해결 (1부)

Ingress Nginx Controller의 Prometheus Metric 병목 현상: 원인 분석과 해결 (2부)

토스증권 Apache Kafka 데이터센터 이중화 구성 #2: 데이터 미러링

Prometheus 3.0으로 갈아타기 (feat. prometehus 3.0 업그레이드 가이드)

MinIO와 K8S로 구축하는 사내 스토리지 서비스 ‘OS’ 구축