我是否将spark.default.parallelism设置得太低？

zvokhttg 于 2021-07-14 发布在 Spark

关注(0)|答案(0)|浏览(235)

在emr上运行一个输入为5.5tb的spark作业，获得 java.io.IOException: Connection reset by peer 群集详细信息：
主机：1x m4.large（在群集模式下运行）
芯：15 x r5.12 x大
spark环境变量集：
spark.executor.cores:5个
spark.driver.cores:5个
spark.executor.memory:37克
spark.driver.memory:37克
spark.executor.memoryoverhead:5g以上
spark.default.parallelism:2680
spark.sql.shuffle.partitions:2680分区
spark.executor.extrajavaoptions:-xx:+useg1gc
spark.serializer:org.apache.spark.serializer.kryoserializer
洗牌后第一阶段作业失败，这是ganglia的截图。注意：利用率的下降与失败阶段开始、作业失败并在13:17重新启动时相匹配：

我的问题：
此故障是由spark.default.parallelism设置过低引起的吗？
我看到前一个阶段的shuffle write是11.3tb，失败的阶段有8040个任务，这是否意味着新阶段中的每个分区将重11.3tb/8040？