필터 1
29CM 에서 무신사머니 사용하기
무신사
· 2025년 10월 31일
백엔드

29CM 에서 무신사머니 사용하기

29CM 주문서에 무신사머니를 외부 연동 방식으로 도입하며 안정성과 연속성을 우선해 설계했습니다. 점진적 기능 저하와 서킷 브레이커, 모니터링과 증설 전략으로 운영 안정성을 확보했습니다.

#Spring Boot#Java
119005분
Master Jenkins와 Mac Node로 테스트 자동화 환경 통합하기
무신사
· 2025년 9월 30일
데브옵스

Master Jenkins와 Mac Node로 테스트 자동화 환경 통합하기

테스트 자동화 환경을 Master Jenkins와 Mac Node 구조로 통합했습니다. IP 변경, 장애 전파, 자원 분산 문제를 줄이고 운영 효율과 안정성을 높였습니다.

#Jenkins#test
82005분
토스증권의 수 천개 실시간 데이터 파이프라인 운영방법 #2: MSA 환경 Observability 높이기
토스
· 2025년 9월 19일
아키텍처

토스증권의 수 천개 실시간 데이터 파이프라인 운영방법 #2: MSA 환경 Observability 높이기

Kafka Broker request log와 METADATA API를 활용해 서비스와 Topic 연결을 실시간으로 추적하는 방법을 소개했습니다. ClickHouse, conntrack, Lag metric 조인으로 소스 수정 없이 MSA 관측성을 높였습니다.

#Kafka#MSA
121005분
에이닷 서비스의 안정성은 내가 챙긴다 ! Grafana(Scar)의 고도화 정리, 시스템의 전반적 소개 및 외부 전파
데보션
· 2025년 9월 17일
데브옵스

에이닷 서비스의 안정성은 내가 챙긴다 ! Grafana(Scar)의 고도화 정리, 시스템의 전반적 소개 및 외부 전파

검색서비스팀의 SCAR 모니터링 시스템 고도화와 전체 구조를 소개했습니다. 기존 로그 기반 방식의 한계를 짚고, 수집·집계·시각화 분리와 품질 지표 확장을 다뤘습니다.

#Grafana#Elasticsearch
47005분
서비스의 건강을 수치화 할 수 있을까? — SLI/SLO
무신사
· 2025년 8월 18일
백엔드

서비스의 건강을 수치화 할 수 있을까? — SLI/SLO

서비스의 건강을 수치로 보기 위해 SLI와 SLO를 정의하고 운영하는 방법을 소개했습니다. 29CM 사례를 통해 지표 설계, 모니터링, 지속 개선 체계를 설명했습니다.

#SRE#모니터링
84005분
Nginx 설정 통합과 Loki 연동으로 설계한 유연한 멀티사이트 아키텍처
라인
· 2025년 8월 7일
데브옵스

Nginx 설정 통합과 Loki 연동으로 설계한 유연한 멀티사이트 아키텍처

Nginx 설정을 공통화하고 멀티사이트 구조로 통합한 인프라 개선 사례를 소개했습니다. Promtail과 Loki, Ansible을 연계해 로그 수집과 배포 자동화까지 확장했습니다.

#Nginx#Kubernetes
76005분
GPU를 밀도 있게 쓰는 방법 - 토스증권의 GPU 가상화(MIG) 도입기
토스
· 2025년 7월 10일
데브옵스

GPU를 밀도 있게 쓰는 방법 - 토스증권의 GPU 가상화(MIG) 도입기

토스증권이 H100 GPU의 자원 낭비를 줄이기 위해 MIG 기반 GPU 가상화를 도입한 과정을 정리했습니다. Kubernetes 연동과 모니터링 설정까지 포함해 운영 관점의 적용 방법을 설명했습니다.

#MIG#Kubernetes
140005분
DevLake를 활용한 DORA Metrics 지표 수집 및 시각화 도입기
비브로스
· 2025년 5월 25일
데브옵스

DevLake를 활용한 DORA Metrics 지표 수집 및 시각화 도입기

DevLake로 DORA Metrics 수집과 시각화를 도입한 사례를 정리했습니다. Jira 커스텀 필드와 쿼리를 내부 운영 기준에 맞게 조정한 과정도 다뤘습니다.

#DevLake#DORA Metrics
27005분
NVIDIA GPU Operator로 GPU 모니터링 PoC 구축하기
데보션
· 2025년 5월 7일
데브옵스

NVIDIA GPU Operator로 GPU 모니터링 PoC 구축하기

AWS GPU 스팟 인스턴스와 EKS로 GPU 모니터링 PoC를 구축하는 과정을 정리했습니다. NVIDIA GPU Operator, Prometheus, Grafana로 GPU 메트릭을 수집하고 시각화했습니다.

#NVIDIA GPU Operator#Kubernetes
50005분
Playwright로 로그인을, Lighthouse로 성능을: 인증 페이지 성능측정 자동화
펫프렌즈
· 2025년 4월 10일
프론트엔드

Playwright로 로그인을, Lighthouse로 성능을: 인증 페이지 성능측정 자동화

Playwright로 로그인 세션을 자동 구성한 뒤 Lighthouse를 실행해 인증 페이지 성능 측정을 자동화했습니다. 수집한 지표는 CloudWatch와 Grafana로 연동해 지속적으로 모니터링할 수 있게 했습니다.

#Playwright#Lighthouse
114005분
CI/CD 옵저버빌리티 도입 전략 가이드
인포그랩
· 2025년 4월 1일
데브옵스

CI/CD 옵저버빌리티 도입 전략 가이드

CI/CD 옵저버빌리티는 파이프라인 전 과정을 관찰해 병목과 장애 지점을 찾는 접근입니다.\n조직 목표에 맞는 메트릭을 선정하고 모니터링과 알림을 자동화하는 것이 중요합니다.

#CI/CD#Observability
13005분
CI/CD 옵저버빌리티 도입 전략 가이드
인포그랩
· 2025년 4월 1일
데브옵스

CI/CD 옵저버빌리티 도입 전략 가이드

CI/CD 옵저버빌리티의 개념과 필요성, 구현 방식, 모범 관행을 정리했습니다. 조직 목표에 맞는 메트릭을 정하고 파이프라인 가시성을 높이는 방법을 다뤘습니다.

#CI/CD#OpenTelemetry
52005분