我已经尝试了很长一段时间在sparkDataframe上执行groupby和count(),但是它需要很长时间才能被处理。。。
下面的一行大约需要13秒来处理。从我的Angular 来看,我认为这需要太多的时间,但我不知道如何减少处理时间。 matched.limit(100).groupBy('Date','Period').agg(count("*").alias('cnt')).show()
我在spark2.4上运行,配置如下:驱动程序:2vcpu8gbram10执行程序:2vcpu8gbram
有谁能给我一个如何解决这个问题的提示吗?
1条答案
按热度按时间o75abkj41#
我认为这是正确的方法。花费的时间将取决于有多少行。