如何提交一个容器有多个hadoop核心的作业？

kh212irz 于 2021-05-17 发布在 Spark

关注(0)|答案(0)|浏览(236)

我有一份关于hadoopYarn的scala-spark工作。它运行在googledataproc上。我创建了如下配置的集群。

gcloud beta dataproc clusters create CLUSTER_NAME   \
--region REGION   \
--zone ZONE   \
--subnet COMPANY_SUBNET   \
--image-version preview-debian10   \
--optional-components ZOOKEEPER,JUPYTER,ZEPPELIN   \    
--project PROJECT_NAME  \
--enable-component-gateway \
--bucket BUCKET  \
--single-node  \
--master-machine-type n1-standard-32 \
--master-boot-disk-type pd-ssd \
--master-boot-disk-size 500  \
--initialization-action-timeout=20m \
--properties yarn:yarn.scheduler.capacity.resource-calculator=org.apache.hadoop.yarn.util.resource.DominantResourceCalculator,yarn:yarn.scheduler.minimum-allocation-vcores=4,yarn:yarn.scheduler.capacity.default.maximum-allocation-vcores=32,yarn:yarn.scheduler.minimum-allocation-mb=128,yarn:yarn.scheduler.capacity.default.maximum-allocation-mb=122880,yarn:yarn.nodemanager.resource.memory-mb=122880,yarn:yarn.nodemanager.resource.cpu-vcores=32

我创建了一个节点，因为我的代码还没有完成。我只想尝试一些计算和测量一些值。我的代码也不适合并行。
在这种情况下，我希望将集群作为一个容器运行，其中包含完整的vcore（我想我已经摆脱了大的混乱，这可能是错误的）。
当我提交如下作业时，clustercreaten容器有一个cpu。

gcloud dataproc jobs submit spark \
--project=PROJECT_NAME \
--cluster=CLUSTER_NAME  \
--region=REGION \
--class=JAR_CLASS_NAME  \
--jars=MY_PROG_JAR,BUCKET+/spark-bigquery-latest_2.12.jar \
--properties=spark.executor.cores=25,spark.executor.memory=10g,spark.executor.instances=1,spark.task.cpus=25 \
-- yarn

--Yarn是主支柱的参数。
如何创建具有多个CPU的容器？

hadoop yarn scala apache-spark

来源：https://stackoverflow.com/questions/64960230/how-can-i-submit-a-job-for-one-container-has-multiple-cores-with-hadoop-yarn