

달리는 서비스의 이벤트 버스 개선하기
비동기 메시지 규칙이 제각각이던 레거시 시스템을 통합 이벤트·커맨드·태스크로 분류해 표준화했습니다. Kafka와 Bullmq로 cloud agnostic 인프라를 구성해 CSAP 대응 마이그레이션을 완료했습니다.


비동기 메시지 규칙이 제각각이던 레거시 시스템을 통합 이벤트·커맨드·태스크로 분류해 표준화했습니다. Kafka와 Bullmq로 cloud agnostic 인프라를 구성해 CSAP 대응 마이그레이션을 완료했습니다.


광고 업체 유효성 검사 시스템을 직접 API 호출에서 캐시와 Kafka 기반 실시간 처리로 개선한 과정을 정리했습니다. gRPC와 표준화된 필드로 성능, 확장성, 유지보수성을 높였습니다.


광고 업체 유효성 검사 시스템을 API 중심 구조에서 배치와 Kafka 실시간 처리 구조로 단계적으로 개선한 사례입니다. MySQL, Redis, gRPC를 함께 활용해 확장성과 운영 효율을 높였습니다.

무신사 주문 시스템이 모놀리식에서 MSA, EDA, Kafka, Java 전환까지 단계적으로 개선된 과정을 다뤘습니다. 대규모 트래픽과 이벤트 시즌에서도 안정성과 확장성을 높인 리팩토링 경험을 공유했습니다.


카프카 커넥트의 내부 오프셋 관리 방식과 REST API 기반 조작 방법을 설명했습니다. 예제로 오프셋을 되돌려 레코드를 다시 처리하는 과정을 보여주었습니다.

데브시스터즈가 게임 런칭 상황에 맞는 준실시간 지표 서비스를 도입한 과정을 소개했습니다. Kafka, Spark Streaming, Kibana를 활용해 정확도와 비용, 운영성을 함께 맞추려는 시도를 설명했습니다.


Hyperconnect SRE팀이 Azar 핵심 컴포넌트를 대상으로 첫 장애 모의 훈련을 진행한 과정을 공유했습니다. 실제형 시나리오와 stage 환경 보강을 통해 완화 우선 대응과 팀 간 지표 공유의 중요성을 확인했습니다.


아자르의 개인정보 삭제 정책 시스템을 이벤트 기반으로 설계한 사례를 소개했습니다. 예약부와 처리부를 분리하고 Kafka, Databricks로 무손실 처리와 백필을 지원했습니다.

Debezium MSK Connect 장애 대응을 위해 Heartbeat 모니터링과 Failover 복구 흐름을 구성했습니다. 신규 Connector 재생성, op 변환, AOP 공통화로 데이터 연속성과 안정성을 높였습니다.

MySQL 기반 message-relay의 쿼리 지연과 lock wait 문제를 분석하고 개선한 사례를 소개했습니다. NOWAIT와 LIMIT 조합으로 lock 경합을 줄여 성능을 안정화했습니다.
![공통 Kafka 전환기 [Part 1. 공통 Kafka 전환 배경 및 전략]](https://miro.medium.com/v2/resize:fit:1200/1*Zgg56jduWlHfsjk4HhqKHQ.png)

도메인별로 분산 운영하던 Kafka Cluster를 공통 Cluster로 통합한 배경과 전략을 정리했습니다. KRaft, SASL/SCRAM, AKHQ, Grafana를 활용한 표준 운영 방향도 소개했습니다.
Iceberg를 DataLake에 도입해 Kafka·CDC 입수와 테이블 운영을 더 효율적으로 개선했습니다. 또한 자동화된 모니터링과 유지보수로 실시간 조회와 성능 최적화를 함께 달성했습니다.