spark:增加任务/分区的数量

jgovgodb  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(388)

spark中的任务数由阶段开始时rdd分区的总数决定。例如,当spark应用程序从hdfs读取数据时,hadoop rdd的分区方法继承自 FileInputFormat 在受hdfs块大小影响的mapreduce中 mapred.min.split.size 以及压缩方法等。

截图中的任务花了7、7、4秒,我想让它们保持平衡。另外,这个阶段分为3个任务,有没有办法指定分区/任务的数量?

3hvapo4f

3hvapo4f1#

任务依赖于分区。可以为rdd设置分区器,在分区器中可以设置分区数。

相关问题