如何提交一个容器有多个hadoop核心的作业?

kh212irz  于 2021-05-17  发布在  Spark
关注(0)|答案(0)|浏览(236)

我有一份关于hadoopYarn的scala-spark工作。它运行在googledataproc上。我创建了如下配置的集群。

gcloud beta dataproc clusters create CLUSTER_NAME   \
--region REGION   \
--zone ZONE   \
--subnet COMPANY_SUBNET   \
--image-version preview-debian10   \
--optional-components ZOOKEEPER,JUPYTER,ZEPPELIN   \    
--project PROJECT_NAME  \
--enable-component-gateway \
--bucket BUCKET  \
--single-node  \
--master-machine-type n1-standard-32 \
--master-boot-disk-type pd-ssd \
--master-boot-disk-size 500  \
--initialization-action-timeout=20m \
--properties yarn:yarn.scheduler.capacity.resource-calculator=org.apache.hadoop.yarn.util.resource.DominantResourceCalculator,yarn:yarn.scheduler.minimum-allocation-vcores=4,yarn:yarn.scheduler.capacity.default.maximum-allocation-vcores=32,yarn:yarn.scheduler.minimum-allocation-mb=128,yarn:yarn.scheduler.capacity.default.maximum-allocation-mb=122880,yarn:yarn.nodemanager.resource.memory-mb=122880,yarn:yarn.nodemanager.resource.cpu-vcores=32

我创建了一个节点,因为我的代码还没有完成。我只想尝试一些计算和测量一些值。我的代码也不适合并行。
在这种情况下,我希望将集群作为一个容器运行,其中包含完整的vcore(我想我已经摆脱了大的混乱,这可能是错误的)。
当我提交如下作业时,clustercreaten容器有一个cpu。

gcloud dataproc jobs submit spark \
--project=PROJECT_NAME \
--cluster=CLUSTER_NAME  \
--region=REGION \
--class=JAR_CLASS_NAME  \
--jars=MY_PROG_JAR,BUCKET+/spark-bigquery-latest_2.12.jar \
--properties=spark.executor.cores=25,spark.executor.memory=10g,spark.executor.instances=1,spark.task.cpus=25 \
-- yarn

--Yarn是主支柱的参数。
如何创建具有多个CPU的容器?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题