如何访问流Dataframe中的前一行

x33g5p2x 于 2021-05-19 发布在 Spark

关注(0)|答案(0)|浏览(301)

我就是找不到办法。我见过很多关于静态Dataframe的解决方案，但是没有关于流的解决方案。
好的，我得到了这个Dataframe：

+------------------------------------------+--------------+-------------------+-------------------+
|Window - 1 hour                           |Count articles|start_time         |sub_start_time     |
+------------------------------------------+--------------+-------------------+-------------------+
|[2020-10-23 14:00:00, 2020-10-23 15:00:00]|810           |2020-10-23 14:00:00|2020-10-23 13:00:00|
|[2020-10-23 15:00:00, 2020-10-23 16:00:00]|751           |2020-10-23 15:00:00|2020-10-23 14:00:00|
|[2020-10-23 16:00:00, 2020-10-23 17:00:00]|372           |2020-10-23 16:00:00|2020-10-23 15:00:00|
|[2020-10-23 17:00:00, 2020-10-23 18:00:00]|1             |2020-10-23 17:00:00|2020-10-23 16:00:00|
+------------------------------------------+--------------+-------------------+-------------------+

我想在第4行和第3行、第2行和第1行的count articles列中做一些比较。。。我希望能够对加入流Dataframe的每一行执行此操作。
我想访问最新的一行和它前面的一行，然后比较这两个。斯卡拉、斯帕克和Kafka有这种可能吗？如果是，怎么做？
提前谢谢

scala streaming DataFrame apache-kafka apache-spark

来源：https://stackoverflow.com/questions/64502655/how-do-access-the-previous-row-in-a-streaming-dataframe