如何在python中执行groupby并在spark上快速计数?

v8wbuo2f  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(317)

我已经尝试了很长一段时间在sparkDataframe上执行groupby和count(),但是它需要很长时间才能被处理。。。
下面的一行大约需要13秒来处理。从我的Angular 来看,我认为这需要太多的时间,但我不知道如何减少处理时间。 matched.limit(100).groupBy('Date','Period').agg(count("*").alias('cnt')).show() 我在spark2.4上运行,配置如下:驱动程序:2vcpu8gbram10执行程序:2vcpu8gbram
有谁能给我一个如何解决这个问题的提示吗?

o75abkj4

o75abkj41#

我认为这是正确的方法。花费的时间将取决于有多少行。

df.groupBy('Date', 'Period').count().show(10, False)

相关问题