我有一份关于hadoopYarn的scala-spark工作。它运行在googledataproc上。我创建了如下配置的集群。
gcloud beta dataproc clusters create CLUSTER_NAME \
--region REGION \
--zone ZONE \
--subnet COMPANY_SUBNET \
--image-version preview-debian10 \
--optional-components ZOOKEEPER,JUPYTER,ZEPPELIN \
--project PROJECT_NAME \
--enable-component-gateway \
--bucket BUCKET \
--single-node \
--master-machine-type n1-standard-32 \
--master-boot-disk-type pd-ssd \
--master-boot-disk-size 500 \
--initialization-action-timeout=20m \
--properties yarn:yarn.scheduler.capacity.resource-calculator=org.apache.hadoop.yarn.util.resource.DominantResourceCalculator,yarn:yarn.scheduler.minimum-allocation-vcores=4,yarn:yarn.scheduler.capacity.default.maximum-allocation-vcores=32,yarn:yarn.scheduler.minimum-allocation-mb=128,yarn:yarn.scheduler.capacity.default.maximum-allocation-mb=122880,yarn:yarn.nodemanager.resource.memory-mb=122880,yarn:yarn.nodemanager.resource.cpu-vcores=32
我创建了一个节点,因为我的代码还没有完成。我只想尝试一些计算和测量一些值。我的代码也不适合并行。
在这种情况下,我希望将集群作为一个容器运行,其中包含完整的vcore(我想我已经摆脱了大的混乱,这可能是错误的)。
当我提交如下作业时,clustercreaten容器有一个cpu。
gcloud dataproc jobs submit spark \
--project=PROJECT_NAME \
--cluster=CLUSTER_NAME \
--region=REGION \
--class=JAR_CLASS_NAME \
--jars=MY_PROG_JAR,BUCKET+/spark-bigquery-latest_2.12.jar \
--properties=spark.executor.cores=25,spark.executor.memory=10g,spark.executor.instances=1,spark.task.cpus=25 \
-- yarn
--Yarn是主支柱的参数。
如何创建具有多个CPU的容器?
暂无答案!
目前还没有任何答案,快来回答吧!