如何忽略检查点？

vfh0ocws 于 2021-07-12 发布在 Spark

关注(0)|答案(1)|浏览(366)

我在用微博客阅读Kafka流的信息( readStream )，并通过 writeStream . 该作业（流式查询）设计为“永远”运行，处理大小为10秒（处理时间）的微批量。这个 checkpointDirectory 选项已设置，因为spark需要检查点。
但是，当我尝试提交另一个具有相同源流（相同主题等）但可能不同处理算法的查询时，spark会完成上一个正在运行的查询，并创建一个具有相同id的新查询（因此它从上一个作业“已完成”的偏移量开始）。
如何告诉spark第二个作业与第一个不同，因此不需要从检查点还原（即，预期行为是创建一个全新的流式查询，而不是连接到前一个，并保持前一个运行）？

apache-spark spark-structured-streaming

来源：https://stackoverflow.com/questions/66489912/spark-structured-streaming-how-to-ignore-checkpoint