Velopers 홈

오늘 새 글

0개

오늘 조회수

170회

필터 1

Mapping Karrot’s Data: How We Built Column-Level Lineage

· 2025년 12월 5일

백엔드

Mapping Karrot’s Data: How We Built Column-Level Lineage

Karrot 데이터팀이 BigQuery SQL 로그를 파싱해 컬럼 단위 데이터 계보를 구축한 과정을 소개했습니다. 테이블 단위 한계를 보완하고 영향 분석과 PII 추적을 정교하게 만든 사례입니다.

동적 사용자 분할을 활용한 새로운 A/B 테스트 시스템을 소개합니다

사용자 세그먼트 기반으로 A/B 테스트 그룹을 나누는 동적 분할 시스템을 소개했습니다. 타겟팅·할당·로그 수집 흐름과 실제 활용 사례도 함께 정리했습니다.

#A/B 테스트#Spark

95005분

당근 데이터 지도를 그리다: 컬럼 레벨 리니지 구축기

· 2025년 12월 4일

백엔드

당근 데이터 지도를 그리다: 컬럼 레벨 리니지 구축기

BigQuery 쿼리 로그를 SQL 파싱해 컬럼 레벨 리니지를 구축한 사례를 소개했습니다. 테이블·컬럼 의존 관계를 빠르게 추적해 데이터 신뢰성과 운영 효율을 높였습니다.

#SQL#BigQuery

88005분

Iceberg Low-Latency Queries with Materialized Views (feat. 실시간 거래 리포트)

· 2025년 12월 1일

기타

Iceberg Low-Latency Queries with Materialized Views (feat. 실시간 거래 리포트)

실시간 거래 리포트를 빠르게 조회하기 위한 저지연 설계와 최신성 확보 과정을 다뤘습니다. Spark, Iceberg, StarRocks 조합의 운영 사례와 성능 결과도 공유했습니다.

#Iceberg#Spark

77005분

통합 데이터 허브로 가는 길 - Part 3

· 2025년 11월 28일

아키텍처

통합 데이터 허브로 가는 길 - Part 3

Zeppelin의 익숙한 사용성을 유지하면서 JupyterHub에 기능과 운영 체계를 단계적으로 구현한 내용을 정리했습니다. 대용량 SQL 안정화, GitHub 자동화, 무중단 운영과 추적성 확보가 핵심이었습니다.

지속 가능한 서비스를 위한 ‘선택’을 고민하는, 래블업 소프트웨어 엔지니어 강대명

스타트업 서비스 설계에서는 구현보다 지속 가능성을 먼저 고민해야 한다고 말씀했습니다.\n기술 부채와 운영 요소를 함께 보고, 장기적으로 연결되는 구조를 설계하는 시야가 중요하다고 강조했습니다.

#MSA#Kafka

20005분

통합 데이터 허브로 가는 길 - Part 1

· 2025년 11월 3일

아키텍처

통합 데이터 허브로 가는 길 - Part 1

데이터는 많지만 도구와 흐름이 흩어져 있어 활용이 어려운 문제를 다뤘습니다. 이를 해결하기 위해 JupyterHub와 dbt 조합을 통합 데이터 허브의 기반으로 선택했습니다.

효율적인 데이터 분석을 위한 Trino와 Spark의 하이브리드 사용 방법

Trino는 빠른 실시간 분석과 멀티 소스 조인에 적합하고, Spark는 대규모 배치와 ETL에 유리하다고 설명했습니다. 두 엔진을 역할 분담하는 하이브리드 전략과 Trino의 운영 한계도 함께 정리했습니다.

#Trino#Spark

71005분

JuiceFS: 오브젝트 스토리지를 활용하는 HDFS 호환 분산 파일 시스템

· 2025년 9월 11일

백엔드

JuiceFS: 오브젝트 스토리지를 활용하는 HDFS 호환 분산 파일 시스템

HDFS와 오브젝트 스토리지의 장단점을 비교하고, 그 한계를 보완하는 JuiceFS의 구조와 활용법을 설명했습니다. Hadoop 환경에서 JuiceFS를 설정해 HDFS CLI, MapReduce, Spark와 연동하는 방법도 다뤘습니다.

#Hadoop#HDFS

80005분

EMNLP24 늦은 후기 2탄: CC 데이터로 LLM 사전학습 데이터셋을 만들어본 경험 및 NVIDIA 논문 리뷰

· 2025년 8월 7일

EMNLP24 늦은 후기 2탄: CC 데이터로 LLM 사전학습 데이터셋을 만들어본 경험 및 NVIDIA 논문 리뷰

웹 크롤링 데이터로 LLM 사전학습 데이터셋을 만든 경험과 어려움을 정리했습니다. NVIDIA EMNLP 2024 논문을 통해 품질 필터링과 중복 제거 전략을 체계적으로 살펴봤습니다.

#LLM#PySpark

49005분

실시간 유효 광고 선정을 위한 Flink에서 Apache Paimon 도입기

· 2025년 7월 31일

아키텍처

실시간 유효 광고 선정을 위한 Flink에서 Apache Paimon 도입기

Flink와 Apache Paimon으로 실시간 유효 광고 선정 파이프라인을 구축한 사례를 소개했습니다. 실시간 처리 보장, 조인, 타임 트래블, 자동 compaction 같은 Paimon 활용 포인트를 정리했습니다.

#Apache Flink#Apache Paimon

120005분

· 2025년 7월 28일

백엔드

CDC 파이프라인 정합성 검사 Spark 잡 개발 - Part 1. 코드 설계편

CDC 파이프라인 정합성 검사 Spark 잡의 코드 설계 배경을 소개했습니다. 대규모 데이터 응집 환경에서 검증용 잡을 어떻게 구성할지 다루는 글입니다.

#Spark#파이프라인

89005분