
Trino로 타임아웃 개선하기
로그 누적으로 발생한 대시보드 타임아웃과 slow query 문제를 Trino 도입으로 개선한 사례를 다뤘습니다. OBS와 Parquet, MySQL tier down 구조를 통해 집계 성능과 저장 효율을 함께 고려했습니다.

로그 누적으로 발생한 대시보드 타임아웃과 slow query 문제를 Trino 도입으로 개선한 사례를 다뤘습니다. OBS와 Parquet, MySQL tier down 구조를 통해 집계 성능과 저장 효율을 함께 고려했습니다.

OBS 플랫폼에 SLI/SLO를 도입해 공용 미디어 플랫폼의 신뢰성을 측정하고 운영에 활용한 사례를 공유했습니다. 로그 기반 메트릭 수집과 Recording Rules로 대시보드 성능을 개선하고 알람 체계를 구성했습니다.


기존 로그 배치 파이프라인의 분류 비효율, 낮은 신선도, 스키마 관리 부재를 정리하고 개선 방향을 설명했습니다. MSK와 Kafka Consumer, Protobuf, Schema Registry를 활용한 준실시간 구조로 전환한 과정을 소개했습니다.

Kafka 소비 시 JSON 역직렬화 설정이 왜 기대대로 동작하지 않는지 과정을 따라가며 분석했습니다. 헤더 타입 정보와 타입 매핑, trusted packages, target type 우선순위를 조정해 해결했습니다.

쓱데이 트래픽 대응을 위해 상품 유닛에 카나리 배포를 도입한 경험을 공유했습니다. 성능 개선 작업과 함께 조기 장애 감지와 롤백의 중요성을 강조했습니다.


DataHub를 그대로 노출하지 않고 OpenSearch와 DB를 직접 활용해 데이터카탈로그에 맞는 검색·리니지·BI 통합 기능을 구현했습니다. 또한 버전업과 수집 성능 문제를 개선해 운영 적합성을 높였습니다.


이벤트 스트리밍 처리를 위해 Flink SQL을 도입한 사례와 선택 이유를 정리했습니다. 또한 Kubernetes 기반 HA 구성, GitOps 배포, 운영 중 트러블슈팅과 모니터링 포인트를 공유했습니다.


Redis 키스페이스 이벤트로 SIP 등록 갱신 타이머를 영속화해 서버 재시작에도 등록 누락을 줄였습니다. 대규모 환경에서는 보조 키, Goalkeeper, Redis 클러스터 확장과 hz 튜닝으로 안정성을 높였습니다.


OMS의 목적과 역할을 재정의하며 TAM 통합과 주문 분배 계획 단일화를 이끈 구축기입니다. 수기 업무를 줄이고 CAPA 기반 자동화로 운영 생산성을 높이는 과정을 다뤘습니다.


비동기 메시지 규약이 제각각이라 추적과 유지보수가 어려운 문제를 길드 활동으로 해결했습니다. AsyncAPI와 Code-Gen 도구 WAAX를 도입해 문서화, 정적 검증, 가시화를 함께 개선했습니다.

Spring Cloud Stream으로 데이터 추출과 조합 파이프라인을 구성한 사례를 소개했습니다. 멀티 모듈과 Function 규격화를 통해 확장성과 결합도 개선 방향도 제시했습니다.

토스증권의 Active-Active Kafka 이중화에서 동일한 토픽명 미러링과 무한 루프 방지 방식을 소개했습니다. DLQ, 커스텀 메트릭, 클러스터 분리로 정합성과 운영성을 높인 사례입니다.