목록 보기
통합 데이터 허브로 가는 길 - Part 1
아키텍처

통합 데이터 허브로 가는 길 - Part 1

밸런스히어로
밸런스히어로
2025년 11월 3일

두줄요약

데이터는 많지만 도구와 흐름이 흩어져 있어 활용이 어려운 문제를 다뤘습니다. 이를 해결하기 위해 JupyterHub와 dbt 조합을 통합 데이터 허브의 기반으로 선택했습니다.

문제 상황

  • 데이터는 많지만 도구와 작업 흐름이 분산된 상태
  • Zeppelin, AWS Console, DBeaver, Slack, Jira 등으로 탐색·테스트·운영이 분절
  • SQL 수정, 배치 등록, 알림 설정까지 수작업 의존도가 높은 구조

해결 방법

  • 탐색부터 시스템화까지 이어지는 단일 플랫폼 지향
  • SQL 모델을 배치 파이프라인과 애플리케이션에 직접 연결하는 흐름 설계
  • dbt와 JupyterHub 조합으로 분석과 운영을 하나의 작업 흐름으로 통합

선택 이유

  • Zeppelin은 SQL 실행기로는 충분했지만 확장성, Python 생태계, 운영 유연성에 한계
  • Spark로 감싼 Athena 쿼리는 단순 수정에도 재빌드와 재배포가 필요한 비효율 발생
  • dbt는 SQL 중심 모델링과 자동화에 적합했으나 Git 워크플로우 장벽이 존재

댓글 0

댓글을 작성하려면 로그인이 필요합니다.

댓글을 불러오는 중...