处理数据-spark结构化流

euoag5mw  于 2021-06-06  发布在  Kafka
关注(0)|答案(1)|浏览(336)

据我所知,spark结构化流是通过使用检查点进行容错的。
我想读Kafka的书。
假设我使用了checkpoint,然后由于某种原因我的代码崩溃了/我停止了它,然后我期望当我重新运行代码时,它会恢复处理过的数据。
我的问题是,在读取配置中,如果我将偏移量设置为“最早”,那么在重新运行代码后,我将再次读取相同的数据,如果我将“最晚”设置为“最晚”,则在重新运行代码之前,不会读取代码崩溃之间的数据。
有没有一种方法可以通过Spark2.3结构化流媒体(pyspark)从kafka读取未读消息,并从检查点恢复处理过的数据?

9udxz4iz

9udxz4iz1#

这取决于你的代码在哪里崩溃。你不需要最早设置,你可以设置为最晚。您总是可以从检查点处理中恢复并重新处理数据,以下是检查点处理的语义

相关问题