在整个集群中运行spark作业和spark submit

ztyzrc3y  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(382)

我最近在amazonemr上建立了一个spark集群,有1个主服务器和2个从服务器。
我能跑 pyspark ,并提交作业 spark-submit .
但是,当我创建一个独立的作业时 job.py ,我创建了一个sparkcontext,如下所示:

sc=SparkContext("local", "App Name")

这似乎不对,但我不知道该放什么。
当我提交作业时,我确信它没有利用整个集群。
如果我想对我的整个集群运行一个作业,比如说每个从机4个进程,我必须做什么
a、 )作为参数传递给 spark-submit b、 )作为参数传递给 SparkContext() 在脚本本身。

jjjwad0x

jjjwad0x1#

您可以使用

conf = SparkConf().setAppName(appName)
sc = SparkContext(conf=conf)

你必须把程序提交给 spark-submit 对spark standalone cluster使用以下命令

./bin/spark-submit --master spark://<sparkMasterIP>:7077 code.py

Mesos星团

./bin/spark-submit --master mesos://207.184.161.138:7077 code.py

Yarn簇

./bin/spark-submit --master yarn --deploy-mode cluster code.py

对于yarn master,配置将从hadoop\u conf\u dir读取。

相关问题