在pyspark mllib代码中使用0在stage n中等待

s71maibg 于 2021-05-29 发布在 Spark

关注(0)|答案(0)|浏览(195)

我在python上运行了一个代码。它是关于spark mllib algprithms的。输出给出了这样的阶段。

[Stage 20:>            (0 + 32) / 32]
[Stage 20:>            (0 + 32) / 32]
[Stage 20:>            (0 + 32) / 32]
[Stage 20:>            (0 + 32) / 32]
[Stage 20:>            (0 + 32) / 32]
[Stage 20:>            (0 + 32) / 32]
...
[Stage 20:============>(31 + 1) / 32]

但它在[阶段20:>（0+32）/32]上花费了太多时间。阶段是（0+32）很长的时间。有什么问题还是正常的？我用小数据尝试了相同的代码，没有问题。但大数据就是这样。我的电脑是多处理器（16核）。我应该添加一个关于并行化的设置，还是pyspark自动添加？

apache-spark pyspark apache-spark-mllib bigdata

来源：https://stackoverflow.com/questions/62410046/waiting-in-stage-n-with-0-in-pyspark-mllib-code