모든 태그
태그

Hadoop 기술 블로그 글

Hadoop 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.

전체 7최신 7개 표시
홈에서 필터

최신 게시글

7개 표시

데브옵스

총 용량 1EB 초과! 서로 역사가 다른 두 HDFS를 어떻게 연결할까? 데이터 플랫폼 연계 중 직면한 과제와 설계 결정

LY Corporation의 두 HDFS 플랫폼을 통합 운영하며 겪은 스케일링 문제와 연계 설계를 다뤘습니다.권한 모델, Cross-Realm Kerberos, DistCP를 통해 안전한 데이터 전송 구조를 마련한 과정을 소개했습니다.

#HDFS#Hadoop#NameNode
3100

기타

AI 에이전트로 카카오톡 추천 지표 분석 자동화하기

X

#AI 에이전트#Hadoop#자동화
3500

데브옵스

LINE 서비스의 대규모 광고 데이터를 처리하기 위한 Spark on Kubernetes 적용기

LINE Ads의 대규모 광고 데이터를 처리하기 위해 Spark on Kubernetes를 도입한 사례입니다. 성능 향상, 비용 절감, 버전 유연성을 함께 확보했습니다.

#Spark#Kubernetes#Kafka
8600

백엔드

JuiceFS: 오브젝트 스토리지를 활용하는 HDFS 호환 분산 파일 시스템

HDFS와 오브젝트 스토리지의 장단점을 비교하고, 그 한계를 보완하는 JuiceFS의 구조와 활용법을 설명했습니다. Hadoop 환경에서 JuiceFS를 설정해 HDFS CLI, MapReduce, Spark와 연동하는 방법도 다뤘습니다.

#Hadoop#HDFS#JuiceFS
8100

백엔드

Spark Streaming을 활용한 파생 데이터 생성 시간 감축 사례

Hive 배치 기반 파생 데이터 생성 지연 문제를 Spark Streaming으로 실시간 처리하도록 전환한 사례를 소개했습니다. Kafka 오프셋과 처리량, LAG 모니터링으로 안정적인 운영 방법도 함께 설명했습니다.

#Spark Streaming#Kafka#Hive
3800

아키텍처

오픈소스 Trino를 활용한 전사 데이터 분석 시스템 구축기

SK플래닛이 오픈소스 Trino를 전사 분석 엔진으로 도입해 실시간 데이터 조회 환경을 구축했습니다. 운영계 데이터 접근성과 소용량 쿼리 성능을 높이고 리포트 주기도 단축했습니다.

#Trino#Kafka#Hadoop
3700

백엔드

효율적인 하둡 플랫폼 운영을 위한 “Hive 사용량 통계 레포트” 개발기

Hive 사용량 통계를 수집해 하둡 플랫폼 운영 효율을 높인 개발 사례를 소개했습니다. 크롤링 한계를 로그 분석과 실시간 처리 구조로 개선하고 Iceberg 적재 방식도 조정했습니다.

#Hive#Hadoop#Selenium
1800