SQLSpark—按日期、月份和年份对时间戳记录进行分组

wtzytmuj 于 2021-07-26 发布在 Java

关注(0)|答案(1)|浏览(595)

我有这样一个Dataframe：

2019-04-17T17:21:00.963+0000    300
2019-04-17T17:21:21.000+0000    194
2019-04-17T17:21:30.096+0000    104
2019-04-17T17:22:00.243+0000    299
2019-04-17T17:22:20.290+0000    222
2019-04-17T17:22:30.376+0000    76
2019-04-17T17:22:50.570+0000    298
2019-04-17T17:23:20.760+0000    298

我想将这些时间戳按天、月和年分组，并为小时/分钟创建一个抽象。

query="""
SELECT day(InsertDate) as day,
month(InsertDate) as month,
year(InsertDate) as year,
count(ItemLogID) as value
FROM db_ods_aesbhist.ItemLogMessageInbox
group by day, month, year
ORDER BY value DESC
"""

df_input=spark.sql(query).toPandas().set_index()
display(df_input)

我想到了这个，但它会生成三列，我想继续使用日期作为键。
你知道怎么做吗？

sql apache-spark-sql

来源：https://stackoverflow.com/questions/62006203/sql-spark-group-timestamp-records-by-date-month-and-year