hadoop:spark作业无法处理小数据集

lqfhib0f 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(369)

我们的轨迹数据挖掘代码很快就完成了2m的数据，但是由于许多失败的任务，它失败了，比如20m。我们试图增加记忆，但还是失败了。我们有3台机群，4核，32gb内存。我们的配置是

spark.executor.memory 26g 
spark.executor.cores 2 
spark.driver.memory 6g

当我们试图解决这个问题时，出现了错误信息，如“shuffle location缺少一个输出”、“已达到最大执行失败数（3）”。

hadoop apache-spark

来源：https://stackoverflow.com/questions/63547491/hadoop-spark-job-fails-to-process-small-dataset

1条答案

按热度按时间

byqmnocz1#

这似乎不是记忆问题。是否启用了动态资源分配-spark.dynamicallocation.enabled？这将动态地增加您的执行器计数，直到达到物理限制。另外，希望你提交集群模式的工作。
https://spark.apache.org/docs/latest/job-scheduling.html#dynamic-资源配置

赞(0）回复(0）举报 2021-05-27

我来回答

hadoop:spark作业无法处理小数据集

1条答案

相关问题

热门标签

最新问答