Spark 7편: Optimising Shuffle Partitions(coalescePartitions)
Spark 3.0의 AQE와 coalescePartitions로 셔플 파티션을 동적으로 최적화하는 내용을 소개했습니다. 셔플 파티션 크기에 따른 성능 저하 문제와 파티션 병합 방식도 설명했습니다.
#Spark#AQE#shuffle
4200

optimization 태그가 달린 국내 IT 기업 기술 블로그 글을 최신순으로 모았습니다.
5개 표시
Spark 3.0의 AQE와 coalescePartitions로 셔플 파티션을 동적으로 최적화하는 내용을 소개했습니다. 셔플 파티션 크기에 따른 성능 저하 문제와 파티션 병합 방식도 설명했습니다.

Spark의 Broadcast 기능으로 셔플을 줄이고 join 성능을 높이는 방법을 소개했습니다. 작은 데이터셋에는 자동 broadcast 감지와 설정 조건도 함께 설명했습니다.

React Compiler로 React 코드 최적화를 자동화하는 흐름을 소개했습니다. 개발자의 memo 관리 부담을 줄이는 방향을 설명했습니다.
X
이력성 데이터 증가로 MySQL 부담이 커져 S3와 Athena로 저장·조회 구조를 옮긴 사례를 다뤘습니다. Spark bucketing으로 필요한 데이터만 읽도록 최적화하는 흐름을 소개했습니다.
