emr hadoop不使用所有集群节点

1hdlvixo  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(338)

我们正在试验hadoop和普通爬网的处理。
我们的问题是如果我们用1创建一个集群 Master 节点和1 Core 和2 Task 节点,每个组只有一个节点将获得高cpu/网络使用率。我们也试过了 Core 而且没有 Task 节点,但在本例中也只有一个 Core 已使用节点。
下面是节点/集群监视的一些屏幕截图。作业一直在运行(在前两个并行Map阶段),并且应该已经使用了大部分可用的cpu能力,正如您在工作表的屏幕截图中看到的那样 Task 节点。但为什么是闲置的 Task 节点未使用?
我们的hadoop工作,作为 Jar 步骤,对Map作业没有限制。它由多个链接的map/reduce步骤组成。最后一个减速机作业仅限于一个减速机。
截图:https://drive.google.com/drive/folders/1xwabyjmjac_b0ouvptq9lnsj12ttbxi1?usp=sharing
群集ID: j-3KAPYQ6UG9LU6 步骤ID: s-2LY748QDLFLM9 在另一次运行期间,我们在空闲节点的系统日志中发现以下内容,可能是emr问题?

ERROR main: Failed to fetch extraInstanceData from https://aws157-instance-data-1-prod-us-east-1.s3.amazonaws.com/j-2S62KOVL68GVK/ig-3QUKQSH7YJIAU.json?X-Amz-Algorithm=AWS4-HMAC-SHA256&X

你好,卢卡斯

ffdz8vbo

ffdz8vbo1#

聚会迟到了,但您是否尝试将这些属性设置为spark submit命令的一部分。

--conf 'spark.dynamicAllocation.enabled=true' 
--conf 'spark.dynamicAllocation.minExecutors=<MIN_NO_OF_CORE_OR_TASK_NODES_YOU_WANT>'

相关问题