pyspark Spark作业和阶段数

jvidinwx  于 5个月前  发布在  Spark
关注(0)|答案(1)|浏览(65)

我有一个spark作业,它读取两个头为True的csv文件(没有inferschema)。然后连接这两个文件框,执行group by,最后写入csv。

步骤:

  • 读取头为True的csv文件1(无inferschema)
  • 读取头为True的csv文件2(无inferschema)
  • 连接file 1和file 2(不是广播)
  • 执行分组依据
  • 以CSV格式将分组数据写入结果
    问题:创建了多少个作业和阶段?
  • 我的理解是3个工作将被创建-两个阅读和一个写作。
  • 将创建2个阶段-一个用于加入,另一个用于分组

我的理解是否正确?

wa7juj8i

wa7juj8i1#

作业的数量对应于操作的数量

  • 作业数量=操作数量

阶段数与宽转换的计数一致。

  • 阶段数=宽转换数

在您的场景中,由于包含了广泛的转换(如group by和join操作),您将有三个作业来反映这三个操作和两个阶段

相关问题