在performance union()中哪个更好?在spark中是full\u outer\u join?

yruzcnhs  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(249)

我想知道union()和full\u outer\u join in in spark在性能方面哪个是最好的。要演示,请考虑下表2:
完全外部连接时:

在union()上也是相同的结果:

注意:我已经测试了超过100000行的性能。我观察到的是,在如此大的Dataframe上,完全外部连接的性能比union()好,但我想知道为什么会发生这种情况?正如我们已经知道的,union()不会对数据进行任何洗牌,但是spark中的join操作会进行洗牌。因此,join应该更昂贵。
我还注意到,在数量较少的数据集上,union()和full outer join的性能几乎相同。
任何帮助/洞察都将是巨大的。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题