spark程序在集群上运行非常慢

mcvgt66p  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(373)

我尝试在集群中运行我的pyspark,它有2个节点和1个主节点(都有16gbram)。我用下面的命令点燃了我的Spark。
spark submit--master yarn--deploy mode cluster--name“pyspark”--num executors 40--executor memory 2g cd.py
但是我的代码运行非常慢,解析8.2GB的数据几乎需要1个小时。然后我试着改变Yarn的结构。我改变了以下属性。

yarn.scheduler.increment-allocation-mb = 2 GiB

yarn.scheduler.minimum-allocation-mb = 2 GiB

yarn.scheduler.increment-allocation-mb = 2 GiB

yarn.scheduler.maximum-allocation-mb = 2 GiB

在做了这些更改之后,我的spark仍然运行得非常慢,需要1个多小时来解析8.2GB的文件。

4dc9hkyq

4dc9hkyq1#

你能试试下面的配置吗
spark.executor.memory 5g内存
spark.executor.5核心
spark.executor.3示例
spark.driver.2核心

相关问题