我使用googleclouddataproc集群运行spark。在将数据集写入gcs bucket(googlecloudstorage)时,它击中了最后一个分区,这个分区永远不会结束。显示799/800任务已完成。但是悬而未决的1任务永远不会结束。
6mzjoqzu1#
这主要是由于数据倾斜造成的。另外,如果您正在尝试联接,请检查用于联接的列中是否没有空值。这可能导致空值发生交叉连接
1条答案
按热度按时间6mzjoqzu1#
这主要是由于数据倾斜造成的。
另外,如果您正在尝试联接,请检查用于联接的列中是否没有空值。这可能导致空值发生交叉连接