
PostgreSQL to ES: (1) Kafka Connect CDC 파이프라인 구성
PostgreSQL 데이터를 Elasticsearch로 동기화하는 Kafka Connect CDC 파이프라인 구성 글입니다. 10년 넘게 운영한 레거시 시스템의 검색 연동 맥락을 소개합니다.

PostgreSQL 데이터를 Elasticsearch로 동기화하는 Kafka Connect CDC 파이프라인 구성 글입니다. 10년 넘게 운영한 레거시 시스템의 검색 연동 맥락을 소개합니다.

PostgreSQL에서 ES로의 CDC 파이프라인을 Kafka Connect로 구성한 뒤의 트러블슈팅 글입니다. 제공된 본문만으로는 구체적 문제와 해결 내용은 확인되지 않습니다.
Iceberg CDC에서 발생하는 정합성 이슈와 원인을 정리하고, Position Delete 중심의 처리 원칙을 설명했습니다. Kafka key 설정, Commit Timeout, Schema Evolution 대응으로 중복 문제를 해결한 사례를 공유했습니다.


뮤직카우가 Amazon RDS와 Amazon Redshift를 Zero-ETL로 연결해 준실시간 CDC 파이프라인을 구축한 사례를 공유했습니다. DMS 대비 관리 부담과 비용을 줄이고 자동 복구까지 활용한 설정 방법과 주의사항을 정리했습니다.

DBT와 CDC, Airflow로 클라이언트 여정을 추적하는 `data_logs` 테이블 구축 사례를 소개했습니다.복잡한 조인과 스캔 비용을 줄이기 위해 증분 모델링과 파티션 최적화를 적용했습니다.


기존 배치 적재의 지연을 줄이기 위해 Debezium 기반 실시간 CDC 파이프라인을 구축한 과정을 정리했습니다. Kafka Connect 구조, 스냅샷, 오프셋 관리와 성능 개선 포인트까지 살펴보았습니다.


쿠폰 적용 가능 상품을 실시간으로 조회하기 위해 이벤트 기반 반정규화와 Elasticsearch 인덱싱 구조를 구축했습니다. 복잡한 매핑과 갱신 조건을 단순화하고 검색 성능과 운영성을 함께 개선했습니다.

X


Kafka Connect와 JDBC 소스 커넥터로 DB 데이터를 Kafka에 연동하는 방법을 설명했습니다. 쿼리 기반 CDC의 한계와 데이터 누락을 줄이는 설정도 함께 정리했습니다.

X


캐치테이블 글로벌은 번역 마이크로서비스와 검수 어드민을 도입해 다국어 레이어를 구축했습니다. 또한 AWS DMS CDC와 Kafka를 활용해 기존 도메인 변경을 중앙에서 번역 요청하도록 설계했습니다.

트랜잭션 롤백과 중복 조회에 의존하던 CDC의 한계를 짚고, QueryPie의 쿼리 시뮬레이션 기반 접근을 소개했습니다. DBMS 부하를 줄이면서도 변경 전후 데이터를 확보하는 구조와 효과를 설명했습니다.