在spark中加入Dataframe性能

vptzau2j 于 2021-07-14 发布在 Spark

关注(0)|答案(1)|浏览(306)

我正在连接两个Dataframe，它们从s3读取csv文件，并使用 df.join 使用默认值需要9分钟才能完成 spark.sql.shuffle.partitions (200).
当我改变的时候 spark.sql.shuffle.partitions 到10岁，仍然需要差不多相同的时间。
有没有办法提高同一份工作的表现。
另外，如何动态地确定 spark.sql.shuffle.partitions 在生产场景中。

apache-spark apache-spark-sql

来源：https://stackoverflow.com/questions/67161923/joining-dataframe-performance-in-spark

1条答案

按热度按时间

6qfn3psc1#

加速spark连接最有效的方法之一是最小化每个Dataframe中的元素数量；例如，可以在加入Dataframe之前对其应用尽可能多的筛选器。另一种方法是对较小的Dataframe使用广播Dataframe方法（请记住，广播Dataframe必须比其他帧小）。有关详细信息，您可以使用以下有关spark联接优化的提示：
优化apachesparksql连接的databricks演示
apachespark的性能调优

赞(0）回复(0）举报 2021-07-14

我来回答

在spark中加入Dataframe性能

1条答案

相关问题

热门标签

最新问答