spark程序在集群上运行非常慢

mcvgt66p 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(373)

我尝试在集群中运行我的pyspark，它有2个节点和1个主节点（都有16gbram）。我用下面的命令点燃了我的Spark。
spark submit--master yarn--deploy mode cluster--name“pyspark”--num executors 40--executor memory 2g cd.py
但是我的代码运行非常慢，解析8.2GB的数据几乎需要1个小时。然后我试着改变Yarn的结构。我改变了以下属性。

yarn.scheduler.increment-allocation-mb = 2 GiB

yarn.scheduler.minimum-allocation-mb = 2 GiB

yarn.scheduler.increment-allocation-mb = 2 GiB

yarn.scheduler.maximum-allocation-mb = 2 GiB

在做了这些更改之后，我的spark仍然运行得非常慢，需要1个多小时来解析8.2GB的文件。

hadoop yarn apache-spark pyspark spark-submit

来源：https://stackoverflow.com/questions/46192330/spark-program-running-very-slow-on-cluster