attributeerror:“groupeddata”对象没有属性“select”

oxalkeyp  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(455)

我连接多个Dataframe,并通过将两个diffDataframe中的两列相乘,然后将其与属于另一个Dataframe的一列相乘来计算输出。我得到的分组序列表达式是空的错误和没有顺序不是聚合函数的代码有什么问题

df = df1.join(df2,df2["code"] == df1["code"],how = 'left')\
.join(df3, df3["id"] == df1["id"],how = 'left')\
.join(df4, df4["id"] == df1["id"],how = 'left')\
.join(df5, df5["status"] == df1["status"],how='left')\
.withColumn("col1",concat(trim(df4.col1),trim(df3.col1)))\
.withColumn("col2",when(df1.col2 == 1,"S1").otherwise("S2"))\
.withColumn('Col3',((df1['Col3'].substr(6, 4))+df1['Col3']))\
.withColumn('Col4',(sum(df5["col4"] * df1["col4"])/df2['col4']))\
.groupby("col2","col2","col3","col1")\
.select("col2","col2","col3","col1")

attributeerror:“groupeddata”对象没有属性“select”。我们怎样才能阻止错误。我不能使用max,avg或count函数

fumotvh3

fumotvh31#

您需要在groupby之后执行一个聚合函数,比如min、max或gag,以便通过相同的键列进行多个聚合。打电话 groupBy 方法返回relationalgroupeddataset

相关问题