Observability를 위한 LGTM 첫걸음
데브옵스
Observability를 위한 LGTM 첫걸음
두줄요약
LGTM 스택의 개요와 Mimir, Tempo, Loki의 구조를 처음 도입 관점에서 정리했습니다. 또한 배포 모드와 운영 시 주의할 점을 함께 소개했습니다.
핵심 내용
- LGTM(Loki, Grafana, Tempo, Mimir) 기반 Observability 스택의 개요와 log, metric, trace 통합 관점 정리
- Mimir, Tempo, Loki의 공통 분산 아키텍처와 컴포넌트별 역할 설명
- 초기 도입 시 낯선 배포 모드, Helm Chart, EKS 환경에서의 시행착오와 운영 관점 메모 공유
구조와 흐름
- Mimir의 쓰기 경로: Distributor, Ingester, Compactor, Query Frontend, Query Scheduler, Querier, Store Gateway 흐름 설명
- Tempo의 trace 저장·조회 구조와 Metric Generator 역할 소개
- Loki의 Index Gateway 중심 로그 조회 구조 설명
선택 이유
- 대규모 서비스에서 느림, 실패 원인을 log, metric, trace로 함께 추적하기 위한 통합 스택 선택
- Monolithic, Read-Write, Scalable Monolithic, Microservice 등 배포 모드별 확장성과 운영 복잡도 비교
주의할 점
- replication factor, timeout, cache, HPA, shutdown 옵션 등 운영 설정의 영향 고려 필요
- out-of-order 샘플, ring unhealthy, 대형 쿼리 OOM 등 실무 이슈에 대한 사전 이해 필요
