
백엔드
Spark 6편: Yarn Resource Manager 라벨링
두줄요약
YARN 라벨링으로 Spark의 AM과 Executor를 서로 다른 노드에 배치하는 방법을 소개했습니다. EMR에서 Spot Instance 사용 시 발생하는 장애와 비용 문제를 완화하는 구성도 설명했습니다.
핵심 내용
- YARN Resource Manager의 노드 라벨링으로 워크로드별 자원 분리를 구성하는 방법 소개
- Spark Cluster Mode에서 Application Master는 Core Node, Executor는 Task Node에 배치하는 구조 설명
- EMR 환경에서 Spot Instance 사용 시 발생할 수 있는 AM 장애와 재실행 문제를 라벨링으로 완화하는 사례 정리
구조와 흐름
- YARN의 Scheduler, Application Master, Container 역할 정리
- Spark Infra Architecture에서 Cluster Mode와 장애 재시도 흐름 설명
- EMR의 Master, Core, Task Node 역할 분담과 비용 최적화 맥락 제시
적용해볼 점
- Core Node는 AM 전용으로 최소 사양 유지
- Task Node는 Executor 전용으로 높은 사양과 Spot 혼합 구성
- spark.yarn.* 설정과 node label 등록을 통한 리소스 분리 적용
