在dataproc上运行spark cluster时,只有2个不可抢占的工作节点和其他100个可抢占的节点,我有时会得到一个群集,由于太多的连接错误、datanode错误、丢失的执行器,它根本不可用,但仍在跟踪心跳。。。总是出现这样的错误:
18/08/08 15:40:11 WARN org.apache.hadoop.hdfs.DataStreamer: Error Recovery for BP-877400388-10.128.0.31-1533740979408:blk_1073742308_1487 in pipeline [DatanodeInfoWithStorage[10.128.0.35:9866,DS-60d8a566-a1b3-4fce-b9e2-1eeeb4ac840b,DISK], DatanodeInfoWithStorage[10.128.0.7:9866,DS-9f1d8b17-0fee-41c7-9d31-8ad89f0df69f,DISK]]: datanode 0(DatanodeInfoWithStorage[10.128.0.35:9866,DS-60d8a566-a1b3-4fce-b9e2-1eeeb4ac840b,DISK]) is bad.
和错误报告 Slow ReadProcessor read fields for block BP-877400388-10.128.0.31-1533740979408:blk_1073742314_1494
从我所看到的,似乎有一些不正常运作的集群,但没有任何报告表明这一点。
另外,应用程序主机也是在可抢占节点上创建的,这是为什么呢?
1条答案
按热度按时间f3temu5u1#
根据文档,可抢占worker的数量必须小于集群中节点总数的50%,才能获得最佳结果。关于抢占节点中的应用程序主机,您可以通过为dataproc填充问题跟踪器来报告此行为。