총 용량 1EB 초과! 서로 역사가 다른 두 HDFS를 어떻게 연결할까? 데이터 플랫폼 연계 중 직면한 과제와 설계 결정
LY Corporation의 두 HDFS 플랫폼을 통합 운영하며 겪은 스케일링 문제와 연계 설계를 다뤘습니다.권한 모델, Cross-Realm Kerberos, DistCP를 통해 안전한 데이터 전송 구조를 마련한 과정을 소개했습니다.
#HDFS#Hadoop#NameNode
3100

HDFS 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.
5개 표시
LY Corporation의 두 HDFS 플랫폼을 통합 운영하며 겪은 스케일링 문제와 연계 설계를 다뤘습니다.권한 모델, Cross-Realm Kerberos, DistCP를 통해 안전한 데이터 전송 구조를 마련한 과정을 소개했습니다.

사용자 세그먼트 기반으로 A/B 테스트 그룹을 나누는 동적 분할 시스템을 소개했습니다. 타겟팅·할당·로그 수집 흐름과 실제 활용 사례도 함께 정리했습니다.

HDFS와 오브젝트 스토리지의 장단점을 비교하고, 그 한계를 보완하는 JuiceFS의 구조와 활용법을 설명했습니다. Hadoop 환경에서 JuiceFS를 설정해 HDFS CLI, MapReduce, Spark와 연동하는 방법도 다뤘습니다.
카프카 커넥트의 개념과 동작 방식을 소개하고, JDBC와 HDFS 커넥터로 파이프라인을 구성하는 흐름을 설명했습니다. 3.5 버전의 오프셋 관리 기능은 다음 글에서 이어서 다룬다고 예고했습니다.

MinIO를 아카이빙 스토리지로 도입하며 HA와 Failover 동작을 검증하고, 장애 레벨별 대응 기준을 정리했습니다. 또한 HDFS distcp와 Airflow로 Backup & Restore 체계를 구성해 DR 전략을 마련했습니다.
