我有一个类似的代码:
df = transformation(df) df = df.groupBy("f1").agg(agg1, agg2, agg3) df.collect()
聚合函数不包含任何窗口(我们可以假设它们是 F.sum 三个不同的领域)。方法中的操作 transformation 如果没有持久化,是否执行多次?
F.sum
transformation
kqqjbcuj1#
您可以使用链接并执行groupby操作:https://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html
1条答案
按热度按时间kqqjbcuj1#
您可以使用链接并执行groupby操作:
https://spark.apache.org/docs/2.1.0/api/python/pyspark.sql.html