googledataproc spark集群中有太多可抢占节点有时会挂起

bksxznpy 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(316)

在dataproc上运行spark cluster时，只有2个不可抢占的工作节点和其他100个可抢占的节点，我有时会得到一个群集，由于太多的连接错误、datanode错误、丢失的执行器，它根本不可用，但仍在跟踪心跳。。。总是出现这样的错误：

18/08/08 15:40:11 WARN org.apache.hadoop.hdfs.DataStreamer: Error Recovery for BP-877400388-10.128.0.31-1533740979408:blk_1073742308_1487 in pipeline [DatanodeInfoWithStorage[10.128.0.35:9866,DS-60d8a566-a1b3-4fce-b9e2-1eeeb4ac840b,DISK], DatanodeInfoWithStorage[10.128.0.7:9866,DS-9f1d8b17-0fee-41c7-9d31-8ad89f0df69f,DISK]]: datanode 0(DatanodeInfoWithStorage[10.128.0.35:9866,DS-60d8a566-a1b3-4fce-b9e2-1eeeb4ac840b,DISK]) is bad.

和错误报告 Slow ReadProcessor read fields for block BP-877400388-10.128.0.31-1533740979408:blk_1073742314_1494 从我所看到的，似乎有一些不正常运作的集群，但没有任何报告表明这一点。
另外，应用程序主机也是在可抢占节点上创建的，这是为什么呢？

hadoop yarn apache-spark google-cloud-dataproc

来源：https://stackoverflow.com/questions/51750785/google-dataproc-spark-cluster-with-too-many-preemptible-nodes-sometime-hangs