pyspark shuffle写入大小

pdsfdshx 于 2021-06-27 发布在 Hive

关注(0)|答案(0)|浏览(258)

我在第二阶段和第三阶段从两个来源读取数据。如您所见，在阶段2，输入大小为2.8gb，阶段3为38.3gb。但是stage2的shuffle写入部分几乎是输入大小的10倍，即23.9gb。为什么，对于第三阶段，它比它的输入大小要小得多？这对我来说毫无意义。我想知道为什么第二阶段会这么大。如果它只有16个分区在读，它会重新分区吗？

Hive apache-spark pyspark pyspark-dataframes bigdata

来源：https://stackoverflow.com/questions/58084312/pyspark-shuffle-write-size

暂无答案！

目前还没有任何答案，快来回答吧！

相关问题

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

xxl-job 安全组扫描到执行器端口服务存在信息泄露漏洞
回答(1) 发布于 22天前
xxl-job 不能和nacos兼容？
回答(3) 发布于 22天前
xxl-job 任务执行完后无法结束，日志一直转圈
回答(3) 发布于 22天前
xxl-job-admin页面上查看调度日志样式问题
回答(1) 发布于 22天前
xxl-job 参数512字符限制能否去掉
回答(1) 发布于 22天前