目前的 Spark 默認選擇的是 hash-based,通常使用 HashMap 來對 shuffle 來的數(shù)據(jù)進行 aggregate,不會對數(shù)據(jù)進行提前排序。如果用戶需要經(jīng)過排序的數(shù)據(jù),那么需要自己調(diào)用類似 sortByKey() 的操作;如果你是Spark 1.1的用戶,可以將spark.shuffle.manager設置為sort,則會對數(shù)據(jù)進行排序。在Spark 1.2中,sort將作為默認的...
www.dbjr.com.cn/it/6988...html 2025-5-18