我就是找不到办法。我见过很多关于静态Dataframe的解决方案,但是没有关于流的解决方案。
好的,我得到了这个Dataframe:
+------------------------------------------+--------------+-------------------+-------------------+
|Window - 1 hour |Count articles|start_time |sub_start_time |
+------------------------------------------+--------------+-------------------+-------------------+
|[2020-10-23 14:00:00, 2020-10-23 15:00:00]|810 |2020-10-23 14:00:00|2020-10-23 13:00:00|
|[2020-10-23 15:00:00, 2020-10-23 16:00:00]|751 |2020-10-23 15:00:00|2020-10-23 14:00:00|
|[2020-10-23 16:00:00, 2020-10-23 17:00:00]|372 |2020-10-23 16:00:00|2020-10-23 15:00:00|
|[2020-10-23 17:00:00, 2020-10-23 18:00:00]|1 |2020-10-23 17:00:00|2020-10-23 16:00:00|
+------------------------------------------+--------------+-------------------+-------------------+
我想在第4行和第3行、第2行和第1行的count articles列中做一些比较。。。我希望能够对加入流Dataframe的每一行执行此操作。
我想访问最新的一行和它前面的一行,然后比较这两个。斯卡拉、斯帕克和Kafka有这种可能吗?如果是,怎么做?
提前谢谢
暂无答案!
目前还没有任何答案,快来回答吧!