如何在不改变spark代码的情况下减少分区的数量

gxwragnw  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(431)

我有一个代码zip文件通过spark提交执行,它产生了200个输出文件现在的问题是没有改变在作为一个zip文件如何减少输出文件的数量?

qmb5sa22

qmb5sa221#

如果您使用的是配置文件,并且您的代码通过 number of partitionsconfig file 然后您可以动态地更改配置文件中的值,而无需更改zip文件。
另一种选择是使用 --conf spark.sql.shuffle.partitions=<number of partitions> 在你的 spark-submit 然后您的spark作业将创建指定数量的文件。 NOTE: 设置此参数将降低性能,因为它控制整个spark程序的分区数,只有在spark作业未处理数百万条记录时才建议使用。

相关问题