
신뢰성 향상을 위한 SLI/SLO 활용 1편 - SLI/SLO 프레임워크 및 서비스 상태 확인 도구 LINE Status 개발기
SLI/SLO 도입 과정을 공통 프레임워크로 정리하고 사내 템플릿으로 확산한 사례를 소개했습니다. 또한 웹훅과 DB 기반으로 자동 갱신되는 서비스 상태 확인 도구 LINE Status를 만든 과정을 공유했습니다.

SLI/SLO 도입 과정을 공통 프레임워크로 정리하고 사내 템플릿으로 확산한 사례를 소개했습니다. 또한 웹훅과 DB 기반으로 자동 갱신되는 서비스 상태 확인 도구 LINE Status를 만든 과정을 공유했습니다.

MSA 환경에서 매장 데이터 연동 방식을 데이터 특성에 따라 다르게 설계한 사례를 다뤘습니다. Redis 캐시와 Kafka 이벤트를 조합해 API 부담을 줄이고 실시간성을 확보했습니다.

Spring Batch Partitioning, Cursor Reader, Bulk Operations로 수억 건 데이터 처리의 OOM 문제를 해결했습니다. 병렬 분할과 스트리밍 읽기, 일괄 쓰기 최적화로 성능과 안정성을 함께 높였습니다.

육상 데이터센터의 전력·부지·냉각 한계를 우회하는 FDC의 구조와 사례를 정리했습니다. 해수 냉각과 해상풍력 연계로 AI 인프라 대안으로 부상하는 흐름을 설명했습니다.

MSA 환경에서 화면 단위 복잡성을 줄이기 위해 BFF를 도입한 사례를 정리했습니다. 여러 도메인 API 조합과 분기 로직을 서버로 옮기고, 장애 전파와 메모리 과부하 대응도 다뤘습니다.

멀티 센터 전환에 맞춰 배송최적화 시스템을 도입하고 주문분배·이관을 자동화했습니다. 그 결과 배송 리드타임을 평균 14시간 단축하고 운영 개입을 크게 줄였습니다.

내부 백오피스 검색 지연 문제를 고객 사용 방식 인터뷰로 먼저 확인했습니다. IndexedDAO를 도입해 인덱스 히트를 보장하고 8초 쿼리를 200ms대로 개선했습니다.

biz-crm 대용량 검색 지연 문제를 사용자 인터뷰로 원인부터 재점검했습니다. 범용 필터를 줄이고 IndexedDAO를 도입해 인덱스 기반 조회로 개선했습니다.

전수 적재의 지연과 정합성 문제를 해결하기 위해 CDC 기반 증분 복제 파이프라인을 설계했습니다. 전체 로우 해시와 사후 검증으로 멱등성과 신뢰도를 높이고, 시간 단위 배치로 최신성을 개선했습니다.

AI가 아키텍처 규칙을 어기는 문제를 CLAUDE.md가 아니라 코드 구조와 테스트로 해결한 사례를 다뤘습니다. Go 백엔드를 DDD와 커스텀 아키텍처 테스트로 리팩토링해 AI가 안정적으로 코드를 생성하도록 만들었습니다.

AI가 자연어 규칙을 무시하는 문제를 해결하기 위해 Go 백엔드를 DDD 구조로 리팩토링했습니다. 커스텀 아키텍처 테스트와 CI 강제로 규칙을 코드 수준에서 검증하도록 만들었습니다.

DynamoDB Export/Glue/Import로 UserBadge를 분리해 16억 건 규모 마이그레이션을 수행했습니다. 비용은 36% 줄고 시간은 7일에서 약 6시간으로 단축했습니다.