pyspark花费了很长时间

wgxvkvu9  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(219)

我找了很多地方,问了我的教授,但不知道问题出在哪里。我有一个20000点的测试数据集。我在这上面执行了一个groupby来得到总数,它可能需要30秒,这是合理的,因为这是在一个jupyter笔记本上。
但是,当我放入150万个数据点的更大的测试Dataframe时,需要几个小时。其他的一切,即使是在大数据集上,也会很快发生(多个条件连接等)。我的教授认为,一个关键的发生非常频繁,这可能会导致一个问题。但我连这个都查不出来。
当我跑的时候

df = df.groupby('ID').count().sort('ID').desc()).show()

在小数据集上,它工作得非常快,一个值有25个点,而所有其他值都低于5。所以可能是钥匙爆炸了。然而,在更大的Dataframe上,我已经等了半个小时了。
任何帮助都将不胜感激,谢谢

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题