在停用某些节点后无法启动某个节点管理器

nhaq1z21  于 2021-06-04  发布在  Hadoop
关注(0)|答案(2)|浏览(494)

我有一个有1个namenode和6个datanode的集群。在停用3个数据节点之后。我们的Yarn服务总是不健康。似乎其中一个数据节点上的nodemanager从未成功启动。然后我试着重新启动那个盒子上的节点管理器。这是日志。

2014-08-01 11:19:08,217 INFO org.apache.hadoop.metrics2.impl.MetricsSystemImpl: NodeManager metrics system shutdown complete.
2014-08-01 11:19:08,217 FATAL org.apache.hadoop.yarn.server.nodemanager.NodeManager: Error starting NodeManager
org.apache.hadoop.yarn.exceptions.YarnRuntimeException: org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager ,Registration of NodeManager failed, Message from ResourceManager: Disallowed NodeManager from  box708.datafireball.com, Sending SHUTDOWN signal to the NodeManager.
    at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:185)
    at org.apache.hadoop.service.AbstractService.start(AbstractService.java:193)
    at org.apache.hadoop.service.CompositeService.serviceStart(CompositeService.java:121)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.serviceStart(NodeManager.java:197)
    at org.apache.hadoop.service.AbstractService.start(AbstractService.java:193)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.initAndStartNodeManager(NodeManager.java:352)
    at org.apache.hadoop.yarn.server.nodemanager.NodeManager.main(NodeManager.java:398)
Caused by: org.apache.hadoop.yarn.exceptions.YarnRuntimeException: Recieved SHUTDOWN signal from Resourcemanager ,Registration of NodeManager failed, Message from ResourceManager: Disallowed NodeManager from  box708.datafireball.com, Sending SHUTDOWN signal to the NodeManager.
    at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.registerWithRM(NodeStatusUpdaterImpl.java:255)
    at org.apache.hadoop.yarn.server.nodemanager.NodeStatusUpdaterImpl.serviceStart(NodeStatusUpdaterImpl.java:179)
    ... 6 more

我搜索了一下这个错误,但找不到解决办法,有人给我什么指导吗?

jckbn6z7

jckbn6z71#

布里亚特是对的。我也遇到了同样的问题,解决方法是将所有节点添加到include列表中。但我想把这张纸条加在任何遇到这个问题的人身上。
确保并准确添加yarn所抱怨的主机名。在您的示例中,resourcemanager:disallowed nodemanager from box708.datafireball.com
在我的例子中,我添加了一个名为“gpu-0-5”的节点。“gpu-0-5”主机名在我的yarn.include文件中,yarn一直在抱怨。我注意到上面写着“gpu-0-5.local”(即使gpu-0-5路由到同一台机器)。一旦我把gpu-0-5.local添加到我的yarn.include列表中,它就开始工作了。
我不知道如何改变Yarn的配置,只需要“gpu-0-5”。

at0kjp5o

at0kjp5o2#

Message from ResourceManager: Disallowed NodeManager 此消息表示您的nodemanager不在允许的nodemanager列表中,或者在排除的nodemanager列表中。
请检查resourcemanager的配置以获取以下属性:
yarn.resourcemanager.nodes.include-path yarn.resourcemanager.nodes.exclude-path

相关问题