pyspark花费了很长时间

wgxvkvu9 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(219)

我找了很多地方，问了我的教授，但不知道问题出在哪里。我有一个20000点的测试数据集。我在这上面执行了一个groupby来得到总数，它可能需要30秒，这是合理的，因为这是在一个jupyter笔记本上。
但是，当我放入150万个数据点的更大的测试Dataframe时，需要几个小时。其他的一切，即使是在大数据集上，也会很快发生（多个条件连接等）。我的教授认为，一个关键的发生非常频繁，这可能会导致一个问题。但我连这个都查不出来。
当我跑的时候

df = df.groupby('ID').count().sort('ID').desc()).show()

在小数据集上，它工作得非常快，一个值有25个点，而所有其他值都低于5。所以可能是钥匙爆炸了。然而，在更大的Dataframe上，我已经等了半个小时了。
任何帮助都将不胜感激，谢谢

apache-spark pyspark group-by

来源：https://stackoverflow.com/questions/61664999/pyspark-grouby-taking-a-very-long-time

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

pyspark花费了很长时间

暂无答案！

相关问题

热门标签

最新问答