我在第二阶段和第三阶段从两个来源读取数据。如您所见,在阶段2,输入大小为2.8gb,阶段3为38.3gb。但是stage2的shuffle写入部分几乎是输入大小的10倍,即23.9gb。为什么,对于第三阶段,它比它的输入大小要小得多?这对我来说毫无意义。我想知道为什么第二阶段会这么大。如果它只有16个分区在读,它会重新分区吗?
目前还没有任何答案,快来回答吧!
暂无答案!
目前还没有任何答案,快来回答吧!