如何定义spark作业所需的资源

xoshrz7s 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(236)

抱歉，如果这看起来像一个简单的问题，但我无法从一些研究的意义。
我有一个bash脚本，里面有很多Spark。作业的大小各不相同，从ui来看，最大的作业使用以下内容：
输入：11.8 gb随机写入：77.0 gb
当我在集群模式下运行脚本时，它似乎可以工作( spark2-submit --master yarn --deploy-mode cluster mypyfile.py arg1,arg2,arg3 arg4 )，但我想定义必要的（最大）资源，例如 driver-memory , executor-memory , executor-cores . 据我所知，我不应该 num-executors 是否启用动态分配？谢谢你的帮助。

apache-spark spark-submit

来源：https://stackoverflow.com/questions/63034766/how-to-define-resources-needed-for-spark-job