pyspark shuffle写入大小

pdsfdshx  于 2021-06-27  发布在  Hive
关注(0)|答案(0)|浏览(258)

我在第二阶段和第三阶段从两个来源读取数据。如您所见,在阶段2,输入大小为2.8gb,阶段3为38.3gb。但是stage2的shuffle写入部分几乎是输入大小的10倍,即23.9gb。为什么,对于第三阶段,它比它的输入大小要小得多?这对我来说毫无意义。我想知道为什么第二阶段会这么大。如果它只有16个分区在读,它会重新分区吗?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题