필터 1
HPC를 여행하는 히치하이커를 위한 안내서 Part 3 - 8단계로 완성하는 클러스터
데보션
· 2026년 5월 20일
데브옵스

HPC를 여행하는 히치하이커를 위한 안내서 Part 3 - 8단계로 완성하는 클러스터

온프레미스 HPC 클러스터를 8단계로 쌓는 순서와 의존성을 정리했습니다. 기본 설정, GPU 스택, 스토리지, 스케줄러, 모니터링, 자동화가 핵심입니다.

#HPC#Slurm
33205분
신뢰성 향상을 위한 SLI/SLO 활용 1편 - SLI/SLO 프레임워크 및 서비스 상태 확인 도구 LINE Status 개발기
라인
· 2026년 3월 19일
백엔드

신뢰성 향상을 위한 SLI/SLO 활용 1편 - SLI/SLO 프레임워크 및 서비스 상태 확인 도구 LINE Status 개발기

SLI/SLO 도입 과정을 공통 프레임워크로 정리하고 사내 템플릿으로 확산한 사례를 소개했습니다. 또한 웹훅과 DB 기반으로 자동 갱신되는 서비스 상태 확인 도구 LINE Status를 만든 과정을 공유했습니다.

#SRE#SLI/SLO
68005분
Claude Code 비용/사용량을 한눈에: AWS에 Observability 플랫폼 구축하기
AWS
· 2026년 3월 5일
AI

Claude Code 비용/사용량을 한눈에: AWS에 Observability 플랫폼 구축하기

Claude Code의 세션·비용·사용량을 보기 위해 AWS 관리형 서비스로 Observability 플랫폼을 구축하는 방법을 소개했습니다. 메트릭과 이벤트를 분리해 실시간 모니터링과 심층 분석을 함께 제공했습니다.

#AWS#Observability
97005분
100만 TPS 로그 시스템, KEDA를 이용한 오토스케일링 적용기
우아한 형제들
· 2025년 11월 27일
데브옵스

100만 TPS 로그 시스템, KEDA를 이용한 오토스케일링 적용기

KEDA로 Loki 로그 시스템의 오토스케일링을 재구성해 비용과 안정성을 함께 개선했습니다. CPU·메모리뿐 아니라 Fluentd 버퍼 메트릭을 활용하고 HPA 제약으로 과대 확장도 줄였습니다.

#KEDA#HPA
29005분
Grafana Alloy로 로그·메트릭 통합 수집하기 \:\ Promtail 대체·Docker 실전 가이드
인포그랩
· 2025년 11월 12일
데브옵스

Grafana Alloy로 로그·메트릭 통합 수집하기 \:\ Promtail 대체·Docker 실전 가이드

Promtail LTS 전환을 계기로 Grafana Alloy의 통합 수집 방식과 Docker 설치 방법을 소개했습니다. 로그와 메트릭을 함께 운영하려는 환경에서 Alloy 전환을 검토해볼 수 있습니다.

#Grafana Alloy#Promtail
30005분
Grafana Alloy로 로그·메트릭 통합 수집하기 \:\ Promtail 대체·Docker 실전 가이드
인포그랩
· 2025년 11월 12일
데브옵스

Grafana Alloy로 로그·메트릭 통합 수집하기 \:\ Promtail 대체·Docker 실전 가이드

Grafana Alloy로 Promtail의 한계를 보완하며 로그와 메트릭을 통합 수집하는 방법을 소개했습니다. Docker 환경 설정과 운영 시 주의점을 함께 정리했습니다.

#Grafana Alloy#Promtail
87005분
Zookeeper에 의존하지 않는 Kafka를 준비하기 : Amazon MSK에서 KRaft 모드 사용하기
AWS
· 2025년 9월 22일
백엔드

Zookeeper에 의존하지 않는 Kafka를 준비하기 : Amazon MSK에서 KRaft 모드 사용하기

Amazon MSK의 KRaft 모드가 Zookeeper 의존성을 어떻게 줄이는지 설명했습니다. 또한 지원 버전, 마이그레이션 방법, 모니터링 포인트까지 정리했습니다.

#Kafka#Amazon MSK
113005분
서비스의 건강을 수치화 할 수 있을까? — SLI/SLO
무신사
· 2025년 8월 18일
백엔드

서비스의 건강을 수치화 할 수 있을까? — SLI/SLO

서비스의 건강을 수치로 보기 위해 SLI와 SLO를 정의하고 운영하는 방법을 소개했습니다. 29CM 사례를 통해 지표 설계, 모니터링, 지속 개선 체계를 설명했습니다.

#SRE#모니터링
84005분
일 평균 30억 건을 처리하는 결제 시스템의 DB를 Vitess로 교체하기 - 2. 개발 및 운영기
라인
· 2025년 8월 1일
백엔드

일 평균 30억 건을 처리하는 결제 시스템의 DB를 Vitess로 교체하기 - 2. 개발 및 운영기

Vitess로 마이그레이션한 결제 시스템의 개발·운영 활용 방식을 정리했습니다.프로토콜 선택, 샤딩 구성, 모니터링과 페일오버 경험까지 함께 소개했습니다.

#Vitess#MySQL
216005분
GPU를 밀도 있게 쓰는 방법 - 토스증권의 GPU 가상화(MIG) 도입기
토스
· 2025년 7월 10일
데브옵스

GPU를 밀도 있게 쓰는 방법 - 토스증권의 GPU 가상화(MIG) 도입기

토스증권이 H100 GPU의 자원 낭비를 줄이기 위해 MIG 기반 GPU 가상화를 도입한 과정을 정리했습니다. Kubernetes 연동과 모니터링 설정까지 포함해 운영 관점의 적용 방법을 설명했습니다.

#MIG#Kubernetes
140005분
K8s Tips & Tricks – 실전 쿠버네티스 핵심 꿀팁
한글과컴퓨터
· 2025년 6월 17일
데브옵스

K8s Tips & Tricks – 실전 쿠버네티스 핵심 꿀팁

Kubernetes 운영 중 자주 겪는 반복 작업과 실무 함정을 줄이는 팁을 정리했습니다. Namespace, ConfigMap, Init Container, Helm, 모니터링 등 핵심 활용법을 소개했습니다.

#Kubernetes#Helm
104005분
LLM으로 프롬프트 실전 성능 평가하기 \:\ feat. Prometheus 2 & OpenAI API
인포그랩
· 2025년 6월 11일
AI

LLM으로 프롬프트 실전 성능 평가하기 \:\ feat. Prometheus 2 & OpenAI API

프롬프트 품질을 정량 평가하는 방법을 Prometheus 2와 OpenAI API 실습으로 설명했습니다. 각 평가 방식의 장단점과 환각 탐지 한계를 비교하며 자동화된 평가 파이프라인 필요성을 제시했습니다.

#LLM#prompt
21005분