我有一个代码zip文件通过spark提交执行,它产生了200个输出文件现在的问题是没有改变在作为一个zip文件如何减少输出文件的数量?
qmb5sa221#
如果您使用的是配置文件,并且您的代码通过 number of partitions 从 config file 然后您可以动态地更改配置文件中的值,而无需更改zip文件。另一种选择是使用 --conf spark.sql.shuffle.partitions=<number of partitions> 在你的 spark-submit 然后您的spark作业将创建指定数量的文件。 NOTE: 设置此参数将降低性能,因为它控制整个spark程序的分区数,只有在spark作业未处理数百万条记录时才建议使用。
number of partitions
config file
--conf spark.sql.shuffle.partitions=<number of partitions>
spark-submit
NOTE:
1条答案
按热度按时间qmb5sa221#
如果您使用的是配置文件,并且您的代码通过
number of partitions
从config file
然后您可以动态地更改配置文件中的值,而无需更改zip文件。另一种选择是使用
--conf spark.sql.shuffle.partitions=<number of partitions>
在你的spark-submit
然后您的spark作业将创建指定数量的文件。NOTE:
设置此参数将降低性能,因为它控制整个spark程序的分区数,只有在spark作业未处理数百万条记录时才建议使用。