
총 용량 1EB 초과! 서로 역사가 다른 두 HDFS를 어떻게 연결할까? 데이터 플랫폼 연계 중 직면한 과제와 설계 결정
LY Corporation의 두 HDFS 플랫폼을 통합 운영하며 겪은 스케일링 문제와 연계 설계를 다뤘습니다.권한 모델, Cross-Realm Kerberos, DistCP를 통해 안전한 데이터 전송 구조를 마련한 과정을 소개했습니다.
#HDFS#Hadoop
31005분
새로운 기술 블로그가 추가되었어요

LY Corporation의 두 HDFS 플랫폼을 통합 운영하며 겪은 스케일링 문제와 연계 설계를 다뤘습니다.권한 모델, Cross-Realm Kerberos, DistCP를 통해 안전한 데이터 전송 구조를 마련한 과정을 소개했습니다.

X

LINE Ads의 대규모 광고 데이터를 처리하기 위해 Spark on Kubernetes를 도입한 사례입니다. 성능 향상, 비용 절감, 버전 유연성을 함께 확보했습니다.

HDFS와 오브젝트 스토리지의 장단점을 비교하고, 그 한계를 보완하는 JuiceFS의 구조와 활용법을 설명했습니다. Hadoop 환경에서 JuiceFS를 설정해 HDFS CLI, MapReduce, Spark와 연동하는 방법도 다뤘습니다.

Hive 배치 기반 파생 데이터 생성 지연 문제를 Spark Streaming으로 실시간 처리하도록 전환한 사례를 소개했습니다. Kafka 오프셋과 처리량, LAG 모니터링으로 안정적인 운영 방법도 함께 설명했습니다.

SK플래닛이 오픈소스 Trino를 전사 분석 엔진으로 도입해 실시간 데이터 조회 환경을 구축했습니다. 운영계 데이터 접근성과 소용량 쿼리 성능을 높이고 리포트 주기도 단축했습니다.


Hive 사용량 통계를 수집해 하둡 플랫폼 운영 효율을 높인 개발 사례를 소개했습니다. 크롤링 한계를 로그 분석과 실시간 처리 구조로 개선하고 Iceberg 적재 방식도 조정했습니다.