如何在python中执行groupby并在spark上快速计数？

v8wbuo2f 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(317)

我已经尝试了很长一段时间在sparkDataframe上执行groupby和count（），但是它需要很长时间才能被处理。。。
下面的一行大约需要13秒来处理。从我的Angular 来看，我认为这需要太多的时间，但我不知道如何减少处理时间。 matched.limit(100).groupBy('Date','Period').agg(count("*").alias('cnt')).show() 我在spark2.4上运行，配置如下：驱动程序：2vcpu8gbram10执行程序：2vcpu8gbram
有谁能给我一个如何解决这个问题的提示吗？

python apache-spark

来源：https://stackoverflow.com/questions/63411116/how-to-execute-a-groupby-and-count-fastly-on-spark-in-python

1条答案

按热度按时间

o75abkj41#

我认为这是正确的方法。花费的时间将取决于有多少行。

df.groupBy('Date', 'Period').count().show(10, False)

赞(0）回复(0）举报 2021-05-27

我来回答

如何在python中执行groupby并在spark上快速计数？

1条答案

相关问题

热门标签

最新问答