我使用googleclouddataproc集群运行spark数据集写入gcs时遇到了一个永远不会结束的挂起任务

lqfhib0f  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(419)

我使用googleclouddataproc集群运行spark。在将数据集写入gcs bucket(googlecloudstorage)时,它击中了最后一个分区,这个分区永远不会结束。
显示799/800任务已完成。但是悬而未决的1任务永远不会结束。

6mzjoqzu

6mzjoqzu1#

这主要是由于数据倾斜造成的。
另外,如果您正在尝试联接,请检查用于联接的列中是否没有空值。这可能导致空值发生交叉连接

相关问题