
당근 데이터 디스커버리 구축기: DataHub와 DataWiki로 여는 데이터 탐색의 첫걸음
DataHub로 메타데이터의 수집과 신선도 관리를 먼저 정비했습니다. 이후 DataWiki와 SSOT를 더해 도메인 맥락까지 담는 데이터 탐색 환경을 구축했습니다.
#DataHub#Airflow
231005분
새로운 기술 블로그가 추가되었어요

DataHub로 메타데이터의 수집과 신선도 관리를 먼저 정비했습니다. 이후 DataWiki와 SSOT를 더해 도메인 맥락까지 담는 데이터 탐색 환경을 구축했습니다.


분산된 데이터 플랫폼의 메타데이터를 통합 관리하는 DataHub의 개념과 주요 기능을 소개했습니다. 검색, 계보 추적, 거버넌스, 접근 제어 관점에서 활용 포인트를 정리했습니다.


DataHub를 그대로 노출하지 않고 OpenSearch와 DB를 직접 활용해 데이터카탈로그에 맞는 검색·리니지·BI 통합 기능을 구현했습니다. 또한 버전업과 수집 성능 문제를 개선해 운영 적합성을 높였습니다.


DataHub의 Protobuf nested message 주석 미표시 문제를 원인 분석 후 코드와 테스트로 수정했습니다. 오픈소스 기여 과정에서 Slack 커뮤니케이션과 Checkstyle 대응도 함께 경험했습니다.