在整个集群中运行spark作业和spark submit

ztyzrc3y 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(382)

我最近在amazonemr上建立了一个spark集群，有1个主服务器和2个从服务器。
我能跑 pyspark ，并提交作业 spark-submit .
但是，当我创建一个独立的作业时 job.py ，我创建了一个sparkcontext，如下所示：

sc=SparkContext("local", "App Name")

这似乎不对，但我不知道该放什么。
当我提交作业时，我确信它没有利用整个集群。
如果我想对我的整个集群运行一个作业，比如说每个从机4个进程，我必须做什么
a、）作为参数传递给 spark-submit b、）作为参数传递给 SparkContext() 在脚本本身。

1条答案

您可以使用

conf = SparkConf().setAppName(appName)
sc = SparkContext(conf=conf)

你必须把程序提交给 spark-submit 对spark standalone cluster使用以下命令

./bin/spark-submit --master spark://<sparkMasterIP>:7077 code.py

Mesos星团

./bin/spark-submit --master mesos://207.184.161.138:7077 code.py

Yarn簇

./bin/spark-submit --master yarn --deploy-mode cluster code.py

对于yarn master，配置将从hadoop\u conf\u dir读取。