如何忽略检查点?

vfh0ocws  于 2021-07-12  发布在  Spark
关注(0)|答案(1)|浏览(366)

我在用微博客阅读Kafka流的信息( readStream ),并通过 writeStream . 该作业(流式查询)设计为“永远”运行,处理大小为10秒(处理时间)的微批量。这个 checkpointDirectory 选项已设置,因为spark需要检查点。
但是,当我尝试提交另一个具有相同源流(相同主题等)但可能不同处理算法的查询时,spark会完成上一个正在运行的查询,并创建一个具有相同id的新查询(因此它从上一个作业“已完成”的偏移量开始)。
如何告诉spark第二个作业与第一个不同,因此不需要从检查点还原(即,预期行为是创建一个全新的流式查询,而不是连接到前一个,并保持前一个运行)?

imzjd6km

imzjd6km1#

通过设置 checkpointLocation 在各自的writestream调用中选择。您不应该在sparksession中集中设置检查点位置。
这样,它们就可以独立运行,不会相互干扰。

相关问题