Spark 기술 블로그 글

#Apache Iceberg#Airflow#Spark

Apache Iceberg 테이블 운영 실전기: 스냅샷 관리부터 Compaction까지

Iceberg 운영에서 스냅샷 폭증과 Small File 문제를 어떻게 다뤘는지 정리했습니다. 작업 이력 관리와 메인터넌스 정책으로 비용과 성능을 개선한 사례입니다.

Apache Iceberg 테이블 운영 실전기: 스냅샷 관리부터 Compaction까지

2026년 6월 4일

당근 200+개 DB 를 옮기는 ELT 플랫폼, DT Platform 을 만든 이야기

당근 200+개 DB 를 옮기는 ELT 플랫폼, DT Platform 을 만든 이야기

200개 이상 DB를 BigQuery로 옮기던 ELT 운영 문제를 DT Platform으로 분리·표준화했습니다. UI와 DSL, 자동 마이그레이션으로 리드타임과 리뷰 병목을 줄였습니다.

#ELT#ETL#Airflow

13300

2026년 4월 3일

#Apache Iceberg#Apache Flink#Kafka

Hive에서 Iceberg로: 데이터 반영 속도 12배 향상의 비밀

Hive 기반 전체 재작성 ETL의 한계를 Iceberg와 Flink로 개선한 사례를 소개했습니다. 체크포인트, 2PC, 파티셔닝 최적화로 데이터 반영 속도를 12배 높였습니다.

6400

2026년 3월 31일

데브옵스

LINE 서비스의 대규모 광고 데이터를 처리하기 위한 Spark on Kubernetes 적용기

LINE Ads의 대규모 광고 데이터를 처리하기 위해 Spark on Kubernetes를 도입한 사례입니다. 성능 향상, 비용 절감, 버전 유연성을 함께 확보했습니다.

#Spark#Kubernetes#Kafka

8600

LINE 서비스의 대규모 광고 데이터를 처리하기 위한 Spark on Kubernetes 적용기

2026년 3월 3일

#CDC#Apache Iceberg#Kafka

CDC가 데이터 플랫폼을 바꾸는 방식: CDC-based Incremental Replication

전수 적재의 지연과 정합성 문제를 해결하기 위해 CDC 기반 증분 복제 파이프라인을 설계했습니다. 전체 로우 해시와 사후 검증으로 멱등성과 신뢰도를 높이고, 시간 단위 배치로 최신성을 개선했습니다.

CDC가 데이터 플랫폼을 바꾸는 방식: CDC-based Incremental Replication

2026년 1월 23일

#DynamoDB#Apache Iceberg#Athena

80TB 데이터 비용 10배 절감기: DynamoDB에서 Apache Iceberg로의 여정 - Part 2

DynamoDB+S3 이중 저장을 Iceberg 단일 테이블로 통합해 비용을 약 91.5% 절감했습니다. 조회 성능과 서빙 안정성도 함께 개선하고, 컴팩션과 조회의 균형 중요성을 정리했습니다.

80TB 데이터 비용 10배 절감기: DynamoDB에서 Apache Iceberg로의 여정 - Part 2

2025년 12월 19일

Spark History MCP + AI Agent로 Spark 분석 자동화하기

SparkListener와 Spark History MCP, n8n AI Agent를 연결해 Spark 장애 분석을 자동화했습니다.\n실시간 에러 감지와 히스토리 조회로 원인과 해결책을 Slack으로 전달했습니다.

#Spark#MCP#AI Agent

Spark History MCP + AI Agent로 Spark 분석 자동화하기

2025년 12월 17일

#Apache Iceberg#BigQuery#Spark

하나의 데이터, 멀티 엔진: Apache Iceberg로 구축하는 데이터레이크

Redshift 단일 클러스터의 적재 지연과 리소스 경합 문제를 해결하기 위해 Iceberg 기반 데이터레이크를 구축했습니다.\nGCS, BigLake Metastore, Spark, BigQuery를 분리해 멀티 엔진 운영과 벤더 종속 완화를 노렸습니다.

6000

하나의 데이터, 멀티 엔진: Apache Iceberg로 구축하는 데이터레이크

2025년 12월 9일

Karrot’s Journey to CDC with MongoDB

Karrot’s Journey to CDC with MongoDB

Karrot가 MongoDB 적재 방식의 한계를 해결하기 위해 CDC를 도입한 과정을 공유했습니다. 변경 로그 기반으로 BigQuery 적재를 구성하되, 초기 스냅샷은 별도 도구 활용을 검토했습니다.

#MongoDB#BigQuery#CDC

4200

2025년 12월 8일

매번 다 퍼올 필요 없잖아? 당근의 MongoDB CDC 구축기

매번 다 퍼올 필요 없잖아? 당근의 MongoDB CDC 구축기

MongoDB 덤프의 DB 부하와 SLO 문제를 해결하기 위해 CDC를 도입했습니다. Flink CDC와 Spark, 이중 테이블 구조로 적재와 스키마 변경, 정합성 검증을 묶었습니다.

#MongoDB#CDC#Flink

16300

2025년 12월 5일

Mapping Karrot’s Data: How We Built Column-Level Lineage

Mapping Karrot’s Data: How We Built Column-Level Lineage

Karrot 데이터팀이 BigQuery SQL 로그를 파싱해 컬럼 단위 데이터 계보를 구축한 과정을 소개했습니다. 테이블 단위 한계를 보완하고 영향 분석과 PII 추적을 정교하게 만든 사례입니다.

#BigQuery#SQL#Airflow

3700

2025년 12월 5일

동적 사용자 분할을 활용한 새로운 A/B 테스트 시스템을 소개합니다

사용자 세그먼트 기반으로 A/B 테스트 그룹을 나누는 동적 분할 시스템을 소개했습니다. 타겟팅·할당·로그 수집 흐름과 실제 활용 사례도 함께 정리했습니다.

#A/B 테스트#Spark#Redis

9500

2025년 12월 4일

당근 데이터 지도를 그리다: 컬럼 레벨 리니지 구축기

당근 데이터 지도를 그리다: 컬럼 레벨 리니지 구축기

BigQuery 쿼리 로그를 SQL 파싱해 컬럼 레벨 리니지를 구축한 사례를 소개했습니다. 테이블·컬럼 의존 관계를 빠르게 추적해 데이터 신뢰성과 운영 효율을 높였습니다.

#SQL#BigQuery#Airflow

9000

2025년 12월 2일

기타

Iceberg Low-Latency Queries with Materialized Views (feat. 실시간 거래 리포트)

실시간 거래 리포트를 빠르게 조회하기 위한 저지연 설계와 최신성 확보 과정을 다뤘습니다. Spark, Iceberg, StarRocks 조합의 운영 사례와 성능 결과도 공유했습니다.

#Iceberg#Spark#StarRocks

7700

Iceberg Low-Latency Queries with Materialized Views (feat. 실시간 거래 리포트)

2025년 11월 28일

통합 데이터 허브로 가는 길 - Part 3

Zeppelin의 익숙한 사용성을 유지하면서 JupyterHub에 기능과 운영 체계를 단계적으로 구현한 내용을 정리했습니다. 대용량 SQL 안정화, GitHub 자동화, 무중단 운영과 추적성 확보가 핵심이었습니다.

#JupyterHub#SQL#Spark

통합 데이터 허브로 가는 길 - Part 3

2025년 11월 5일

기타

지속 가능한 서비스를 위한 ‘선택’을 고민하는, 래블업 소프트웨어 엔지니어 강대명

스타트업 서비스 설계에서는 구현보다 지속 가능성을 먼저 고민해야 한다고 말씀했습니다.\n기술 부채와 운영 요소를 함께 보고, 장기적으로 연결되는 구조를 설계하는 시야가 중요하다고 강조했습니다.

#MSA#Kafka#Spark

2000

지속 가능한 서비스를 위한 ‘선택’을 고민하는, 래블업 소프트웨어 엔지니어 강대명

2025년 11월 3일

#dbt#JupyterHub#Apache Zeppelin

통합 데이터 허브로 가는 길 - Part 1

데이터는 많지만 도구와 흐름이 흩어져 있어 활용이 어려운 문제를 다뤘습니다. 이를 해결하기 위해 JupyterHub와 dbt 조합을 통합 데이터 허브의 기반으로 선택했습니다.

통합 데이터 허브로 가는 길 - Part 1

2025년 10월 16일