Velopers 홈

새로운 기술 블로그가 추가되었어요

아임웹

오늘 새 글

0개

오늘 조회수

43회

필터 1

총 용량 1EB 초과! 서로 역사가 다른 두 HDFS를 어떻게 연결할까? 데이터 플랫폼 연계 중 직면한 과제와 설계 결정

2026년 6월 23일

데브옵스

총 용량 1EB 초과! 서로 역사가 다른 두 HDFS를 어떻게 연결할까? 데이터 플랫폼 연계 중 직면한 과제와 설계 결정

LY Corporation의 두 HDFS 플랫폼을 통합 운영하며 겪은 스케일링 문제와 연계 설계를 다뤘습니다.권한 모델, Cross-Realm Kerberos, DistCP를 통해 안전한 데이터 전송 구조를 마련한 과정을 소개했습니다.

AI 에이전트로 카카오톡 추천 지표 분석 자동화하기

LINE 서비스의 대규모 광고 데이터를 처리하기 위한 Spark on Kubernetes 적용기

LINE Ads의 대규모 광고 데이터를 처리하기 위해 Spark on Kubernetes를 도입한 사례입니다. 성능 향상, 비용 절감, 버전 유연성을 함께 확보했습니다.

#Spark#Kubernetes

86005분

JuiceFS: 오브젝트 스토리지를 활용하는 HDFS 호환 분산 파일 시스템

2025년 9월 11일

백엔드

JuiceFS: 오브젝트 스토리지를 활용하는 HDFS 호환 분산 파일 시스템

HDFS와 오브젝트 스토리지의 장단점을 비교하고, 그 한계를 보완하는 JuiceFS의 구조와 활용법을 설명했습니다. Hadoop 환경에서 JuiceFS를 설정해 HDFS CLI, MapReduce, Spark와 연동하는 방법도 다뤘습니다.

#Hadoop#HDFS

81005분

Spark Streaming을 활용한 파생 데이터 생성 시간 감축 사례

2024년 10월 23일

백엔드

Spark Streaming을 활용한 파생 데이터 생성 시간 감축 사례

Hive 배치 기반 파생 데이터 생성 지연 문제를 Spark Streaming으로 실시간 처리하도록 전환한 사례를 소개했습니다. Kafka 오프셋과 처리량, LAG 모니터링으로 안정적인 운영 방법도 함께 설명했습니다.

#Spark Streaming#Kafka

38005분

오픈소스 Trino를 활용한 전사 데이터 분석 시스템 구축기

2024년 9월 23일

아키텍처

오픈소스 Trino를 활용한 전사 데이터 분석 시스템 구축기

SK플래닛이 오픈소스 Trino를 전사 분석 엔진으로 도입해 실시간 데이터 조회 환경을 구축했습니다. 운영계 데이터 접근성과 소용량 쿼리 성능을 높이고 리포트 주기도 단축했습니다.

효율적인 하둡 플랫폼 운영을 위한 “Hive 사용량 통계 레포트” 개발기

Hive 사용량 통계를 수집해 하둡 플랫폼 운영 효율을 높인 개발 사례를 소개했습니다. 크롤링 한계를 로그 분석과 실시간 처리 구조로 개선하고 Iceberg 적재 방식도 조정했습니다.

#Hive#Hadoop

18005분