pyspark Shuffle Partition vs Join Keys

h6my8fg2  于 5个月前  发布在  Spark
关注(0)|答案(1)|浏览(47)

当# of unique join keys小于shuffle partitions时会发生什么?
我们会得到很多空的分区吗?
如果是的话,有必要让shuffle分区大于#个唯一连接键吗?

5kgi1eie

5kgi1eie1#

简单的回答是肯定的。如果唯一连接键的数量小于随机分区的数量,则某些分区 * 可能 * 最终为空或具有一些最小的数据和相关开销。空分区不会对最终结果产生影响,但仍然需要处理,这可能会影响连接操作的整体性能。
Shuffle分区一直是一个有问题的参数来优化很长一段时间,但我认为这已经克服了自适应查询执行。使用AQE,可以通过动态调整分区的数量来匹配唯一连接键的数量来缓解不匹配,通过优化数据分布来提高性能。由于AQE动态(因此是自适应的)基于数据统计和作业的特性来调整执行计划。

相关问题