attributeerror:“groupeddata”对象没有属性“select”

oxalkeyp 于 2021-05-27 发布在 Spark

关注(0)|答案(1)|浏览(455)

我连接多个Dataframe，并通过将两个diffDataframe中的两列相乘，然后将其与属于另一个Dataframe的一列相乘来计算输出。我得到的分组序列表达式是空的错误和没有顺序不是聚合函数的代码有什么问题

df = df1.join(df2,df2["code"] == df1["code"],how = 'left')\
.join(df3, df3["id"] == df1["id"],how = 'left')\
.join(df4, df4["id"] == df1["id"],how = 'left')\
.join(df5, df5["status"] == df1["status"],how='left')\
.withColumn("col1",concat(trim(df4.col1),trim(df3.col1)))\
.withColumn("col2",when(df1.col2 == 1,"S1").otherwise("S2"))\
.withColumn('Col3',((df1['Col3'].substr(6, 4))+df1['Col3']))\
.withColumn('Col4',(sum(df5["col4"] * df1["col4"])/df2['col4']))\
.groupby("col2","col2","col3","col1")\
.select("col2","col2","col3","col1")

attributeerror:“groupeddata”对象没有属性“select”。我们怎样才能阻止错误。我不能使用max，avg或count函数

DataFrame apache-spark pyspark apache-spark-sql

来源：https://stackoverflow.com/questions/61986460/attributeerror-groupeddata-object-has-no-attribute-select