필터 1
Mapping Karrot’s Data: How We Built Column-Level Lineage
당근마켓
· 2025년 12월 5일
백엔드

Mapping Karrot’s Data: How We Built Column-Level Lineage

Karrot 데이터팀이 BigQuery SQL 로그를 파싱해 컬럼 단위 데이터 계보를 구축한 과정을 소개했습니다. 테이블 단위 한계를 보완하고 영향 분석과 PII 추적을 정교하게 만든 사례입니다.

#BigQuery#SQL
35005분
동적 사용자 분할을 활용한 새로운 A/B 테스트 시스템을 소개합니다
라인
· 2025년 12월 5일
아키텍처

동적 사용자 분할을 활용한 새로운 A/B 테스트 시스템을 소개합니다

사용자 세그먼트 기반으로 A/B 테스트 그룹을 나누는 동적 분할 시스템을 소개했습니다. 타겟팅·할당·로그 수집 흐름과 실제 활용 사례도 함께 정리했습니다.

#A/B 테스트#Spark
95005분
당근 데이터 지도를 그리다: 컬럼 레벨 리니지 구축기
당근마켓
· 2025년 12월 4일
백엔드

당근 데이터 지도를 그리다: 컬럼 레벨 리니지 구축기

BigQuery 쿼리 로그를 SQL 파싱해 컬럼 레벨 리니지를 구축한 사례를 소개했습니다. 테이블·컬럼 의존 관계를 빠르게 추적해 데이터 신뢰성과 운영 효율을 높였습니다.

#SQL#BigQuery
88005분
Iceberg Low-Latency Queries with Materialized Views (feat. 실시간 거래 리포트)
네이버 D2
· 2025년 12월 1일
기타

Iceberg Low-Latency Queries with Materialized Views (feat. 실시간 거래 리포트)

실시간 거래 리포트를 빠르게 조회하기 위한 저지연 설계와 최신성 확보 과정을 다뤘습니다. Spark, Iceberg, StarRocks 조합의 운영 사례와 성능 결과도 공유했습니다.

#Iceberg#Spark
77005분
통합 데이터 허브로 가는 길 - Part 3
밸런스히어로
· 2025년 11월 28일
아키텍처

통합 데이터 허브로 가는 길 - Part 3

Zeppelin의 익숙한 사용성을 유지하면서 JupyterHub에 기능과 운영 체계를 단계적으로 구현한 내용을 정리했습니다. 대용량 SQL 안정화, GitHub 자동화, 무중단 운영과 추적성 확보가 핵심이었습니다.

#JupyterHub#SQL
0005분
지속 가능한 서비스를 위한 ‘선택’을 고민하는, 래블업 소프트웨어 엔지니어 강대명
구름
· 2025년 11월 5일
기타

지속 가능한 서비스를 위한 ‘선택’을 고민하는, 래블업 소프트웨어 엔지니어 강대명

스타트업 서비스 설계에서는 구현보다 지속 가능성을 먼저 고민해야 한다고 말씀했습니다.\n기술 부채와 운영 요소를 함께 보고, 장기적으로 연결되는 구조를 설계하는 시야가 중요하다고 강조했습니다.

#MSA#Kafka
20005분
통합 데이터 허브로 가는 길 - Part 1
밸런스히어로
· 2025년 11월 3일
아키텍처

통합 데이터 허브로 가는 길 - Part 1

데이터는 많지만 도구와 흐름이 흩어져 있어 활용이 어려운 문제를 다뤘습니다. 이를 해결하기 위해 JupyterHub와 dbt 조합을 통합 데이터 허브의 기반으로 선택했습니다.

#dbt#JupyterHub
0005분
효율적인 데이터 분석을 위한 Trino와 Spark의 하이브리드 사용 방법
데보션
· 2025년 10월 15일
백엔드

효율적인 데이터 분석을 위한 Trino와 Spark의 하이브리드 사용 방법

Trino는 빠른 실시간 분석과 멀티 소스 조인에 적합하고, Spark는 대규모 배치와 ETL에 유리하다고 설명했습니다. 두 엔진을 역할 분담하는 하이브리드 전략과 Trino의 운영 한계도 함께 정리했습니다.

#Trino#Spark
71005분
JuiceFS: 오브젝트 스토리지를 활용하는 HDFS 호환 분산 파일 시스템
네이버 D2
· 2025년 9월 11일
백엔드

JuiceFS: 오브젝트 스토리지를 활용하는 HDFS 호환 분산 파일 시스템

HDFS와 오브젝트 스토리지의 장단점을 비교하고, 그 한계를 보완하는 JuiceFS의 구조와 활용법을 설명했습니다. Hadoop 환경에서 JuiceFS를 설정해 HDFS CLI, MapReduce, Spark와 연동하는 방법도 다뤘습니다.

#Hadoop#HDFS
80005분
EMNLP24 늦은 후기 2탄: CC 데이터로 LLM 사전학습 데이터셋을 만들어본 경험 및 NVIDIA 논문 리뷰
데보션
· 2025년 8월 7일
AI

EMNLP24 늦은 후기 2탄: CC 데이터로 LLM 사전학습 데이터셋을 만들어본 경험 및 NVIDIA 논문 리뷰

웹 크롤링 데이터로 LLM 사전학습 데이터셋을 만든 경험과 어려움을 정리했습니다. NVIDIA EMNLP 2024 논문을 통해 품질 필터링과 중복 제거 전략을 체계적으로 살펴봤습니다.

#LLM#PySpark
49005분
실시간 유효 광고 선정을 위한 Flink에서 Apache Paimon 도입기
네이버 D2
· 2025년 7월 31일
아키텍처

실시간 유효 광고 선정을 위한 Flink에서 Apache Paimon 도입기

Flink와 Apache Paimon으로 실시간 유효 광고 선정 파이프라인을 구축한 사례를 소개했습니다. 실시간 처리 보장, 조인, 타임 트래블, 자동 compaction 같은 Paimon 활용 포인트를 정리했습니다.

#Apache Flink#Apache Paimon
120005분
CDC 파이프라인 정합성 검사 Spark 잡 개발 - Part 1. 코드 설계편
카카오
· 2025년 7월 28일
백엔드

CDC 파이프라인 정합성 검사 Spark 잡 개발 - Part 1. 코드 설계편

CDC 파이프라인 정합성 검사 Spark 잡의 코드 설계 배경을 소개했습니다. 대규모 데이터 응집 환경에서 검증용 잡을 어떻게 구성할지 다루는 글입니다.

#Spark#파이프라인
89005분