性能groupby

svdrlsy4  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(341)

我有一个类似的代码:

df = transformation(df)
df = df.groupBy("f1").agg(agg1, agg2, agg3)
df.collect()

聚合函数不包含任何窗口(我们可以假设它们是 F.sum 三个不同的领域)。方法中的操作 transformation 如果没有持久化,是否执行多次?

kqqjbcuj

kqqjbcuj1#

您可以使用链接并执行groupby操作:
https://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html

相关问题