处理数据-spark结构化流

euoag5mw 于 2021-06-06 发布在 Kafka

关注(0)|答案(1)|浏览(336)

据我所知，spark结构化流是通过使用检查点进行容错的。
我想读Kafka的书。
假设我使用了checkpoint，然后由于某种原因我的代码崩溃了/我停止了它，然后我期望当我重新运行代码时，它会恢复处理过的数据。
我的问题是，在读取配置中，如果我将偏移量设置为“最早”，那么在重新运行代码后，我将再次读取相同的数据，如果我将“最晚”设置为“最晚”，则在重新运行代码之前，不会读取代码崩溃之间的数据。
有没有一种方法可以通过Spark2.3结构化流媒体（pyspark）从kafka读取未读消息，并从检查点恢复处理过的数据？

apache-kafka apache-spark pyspark spark-structured-streaming

来源：https://stackoverflow.com/questions/55482041/handling-data-spark-structured-streaming