백엔드
CDC 파이프라인 정합성 검사 Spark 잡 개발 - Part 1. 코드 설계편
두줄요약
CDC 파이프라인 정합성 검사 Spark 잡의 코드 설계 배경을 소개했습니다. 대규모 데이터 응집 환경에서 검증용 잡을 어떻게 구성할지 다루는 글입니다.
핵심 내용
- 카카오 데이터분석플랫폼 조직에서 여러 서비스의 데이터를 한곳으로 모으는 CDC 파이프라인 정합성 검사 Spark 잡 개발 배경 소개
- Part 1로서 코드 설계 관점을 다루는 글로, 이후 Spark 최적화편과 이어지는 시리즈 구성
- 대규모 데이터 응집 환경에서 정합성 검사를 위한 잡 설계 주제
적용해볼 점
- CDC 파이프라인 검증 로직을 Spark 기반 배치 잡으로 설계하는 관점 참고
- 대규모 데이터 통합 환경에서 정합성 검사 체계 구성 아이디어 참고
