由于java.io.filenotfoundexception:/hadoop/yarn/nm local dir/usercache/root/appcache，google的dataproc上的spark失败/

hfwmuf9z 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(1037)

我已经在dataproc上使用spark/hadoop好几个月了，通过zeppelin和dataproc控制台，但是就在最近，我遇到了以下错误。

Caused by: java.io.FileNotFoundException: /hadoop/yarn/nm-local-dir/usercache/root/appcache/application_1530998908050_0001/blockmgr-9d6a2308-0d52-40f5-8ef3-0abce2083a9c/21/temp_shuffle_3f65e1ca-ba48-4cb0-a2ae-7a81dcdcf466 (No such file or directory)
at java.io.FileOutputStream.open0(Native Method)
at java.io.FileOutputStream.open(FileOutputStream.java:270)
at java.io.FileOutputStream.<init>(FileOutputStream.java:213)
at org.apache.spark.storage.DiskBlockObjectWriter.initialize(DiskBlockObjectWriter.scala:103)
at org.apache.spark.storage.DiskBlockObjectWriter.open(DiskBlockObjectWriter.scala:116)
at org.apache.spark.storage.DiskBlockObjectWriter.write(DiskBlockObjectWriter.scala:237)
at org.apache.spark.shuffle.sort.BypassMergeSortShuffleWriter.write(BypassMergeSortShuffleWriter.java:151)
at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:96)
at org.apache.spark.scheduler.ShuffleMapTask.runTask(ShuffleMapTask.scala:53)
at org.apache.spark.scheduler.Task.run(Task.scala:108)
at org.apache.spark.executor.Executor$TaskRunner.run(Executor.scala:338)
at java.util.concurrent.ThreadPoolExecutor.runWorker(ThreadPoolExecutor.java:1149)
at java.util.concurrent.ThreadPoolExecutor$Worker.run(ThreadPoolExecutor.java:624)
at java.lang.Thread.run(Thread.java:748)

首先，我在齐柏林飞艇笔记本上发现了这种错误，并认为这是齐柏林飞艇的问题。然而，这个错误似乎是随机发生的。我怀疑这与spark的一个工作人员不能在那条路上写字有关。所以，有人建议我在google上删除每个spark worker的/hadoop/yarn/nm local dir/usercache/下的文件，并检查每个worker上是否有可用的磁盘空间。这样做之后，我有时还是会犯这样的错误。我还在dataproc上运行了一个spark作业，也发生了类似的错误。我使用的是dataproc映像版本1.2。
谢谢
皮拉纳特f。

hadoop apache-spark google-cloud-storage google-cloud-dataproc

来源：https://stackoverflow.com/questions/51229580/spark-on-googles-dataproc-failed-due-to-java-io-filenotfoundexception-hadoop

2条答案

按热度按时间

f87krz0w1#

好啊。我们在gcp上面临同样的问题，原因是资源抢占。
在gcp中，资源抢占可以通过以下两种策略来实现：，
节点抢占-删除集群中的节点并替换它们
容器抢占-移除Yarn容器。
此设置由您的管理员/开发人员在gcp中完成，以优化集群的成本和资源利用率，特别是在共享集群时。
堆栈跟踪告诉我的是它的节点抢占。此错误是随机发生的，因为有时被抢占的节点是导致应用程序一起失败的驱动程序节点。
您可以在gcp控制台中看到哪些节点是可抢占的。

赞(0）回复(0）举报 2021-05-29

rqcrx0a62#

以下可能是其他可能的原因：
集群使用抢占工人（他们可以在任何时候被删除），因此他们的工作没有完成，并可能导致不一致的行为。
在spark作业执行期间，节点中存在导致重新启动任务/容器/执行器的调整大小。
内存问题。洗牌操作通常是在内存中完成的，但是如果内存资源被占用，就会溢出到磁盘上。
worker中的磁盘空间已满，这是由于大量的洗牌操作或任何其他在worker中使用磁盘的进程（例如日志）造成的。
终止任务，为失败的尝试腾出空间。
因此，我总结了以下可能的解决方法：
1.-增加工人和大师的记忆，如果你面临记忆问题，这将被丢弃。
2.-更改dataproc的图像版本。
3.-更改集群属性以调整集群，特别是mapreduce和spark。

赞(0）回复(0）举报 2021-05-29

我来回答

由于java.io.filenotfoundexception:/hadoop/yarn/nm local dir/usercache/root/appcache，google的dataproc上的spark失败/

2条答案

相关问题

热门标签

最新问答