hadoop:spark作业无法处理小数据集

lqfhib0f  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(369)

我们的轨迹数据挖掘代码很快就完成了2m的数据,但是由于许多失败的任务,它失败了,比如20m。我们试图增加记忆,但还是失败了。我们有3台机群,4核,32gb内存。我们的配置是

spark.executor.memory 26g 
spark.executor.cores 2 
spark.driver.memory 6g

当我们试图解决这个问题时,出现了错误信息,如“shuffle location缺少一个输出”、“已达到最大执行失败数(3)”。

byqmnocz

byqmnocz1#

这似乎不是记忆问题。是否启用了动态资源分配-spark.dynamicallocation.enabled?这将动态地增加您的执行器计数,直到达到物理限制。另外,希望你提交集群模式的工作。
https://spark.apache.org/docs/latest/job-scheduling.html#dynamic-资源配置

相关问题