googledataproc spark集群中有太多可抢占节点有时会挂起

bksxznpy  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(316)

在dataproc上运行spark cluster时,只有2个不可抢占的工作节点和其他100个可抢占的节点,我有时会得到一个群集,由于太多的连接错误、datanode错误、丢失的执行器,它根本不可用,但仍在跟踪心跳。。。总是出现这样的错误:

18/08/08 15:40:11 WARN org.apache.hadoop.hdfs.DataStreamer: Error Recovery for BP-877400388-10.128.0.31-1533740979408:blk_1073742308_1487 in pipeline [DatanodeInfoWithStorage[10.128.0.35:9866,DS-60d8a566-a1b3-4fce-b9e2-1eeeb4ac840b,DISK], DatanodeInfoWithStorage[10.128.0.7:9866,DS-9f1d8b17-0fee-41c7-9d31-8ad89f0df69f,DISK]]: datanode 0(DatanodeInfoWithStorage[10.128.0.35:9866,DS-60d8a566-a1b3-4fce-b9e2-1eeeb4ac840b,DISK]) is bad.

和错误报告 Slow ReadProcessor read fields for block BP-877400388-10.128.0.31-1533740979408:blk_1073742314_1494 从我所看到的,似乎有一些不正常运作的集群,但没有任何报告表明这一点。
另外,应用程序主机也是在可抢占节点上创建的,这是为什么呢?

f3temu5u

f3temu5u1#

根据文档,可抢占worker的数量必须小于集群中节点总数的50%,才能获得最佳结果。关于抢占节点中的应用程序主机,您可以通过为dataproc填充问题跟踪器来报告此行为。

相关问题