kafka结构化流媒体中的倒带和重聚偏移

62o28rlo  于 2021-07-12  发布在  Spark
关注(0)|答案(1)|浏览(233)

有没有办法在结构化流媒体中回放偏移量?我使用的是sparkversion3,我已经将startingoffset配置为最早,之后的每次重启都将从checkpoint目录中选取offset值。
例如:kafka中的当前偏移量是1000,checkpoint目录中的committed偏移量是900。我想重新计算一下800的偏移量。我怎样才能做到这一点?
如果我取消当前运行并使用下面的命令重置使用者组的偏移值。结构化流是否会在重新启动时从那里选择偏移量,而不是考虑检查点目录?

kafka-consumer-groups.sh --bootstrap-server <broker hostname> \
  --group <consumer group> --reset-offsets --to-offset 800 \
  --topic <topicName>:<partition number> \
  --execute
w6mmgewl

w6mmgewl1#

spark structured streaming不会将任何偏移提交回kafka,而是只跟踪其检查点文件中消耗的偏移。
这意味着使用 kafka-consumer-groups.sh 工具不会有帮助。
如果要从偏移量800开始读取,则需要删除检查点文件并使用readstream选项 startingOffsets 如《结构化流媒体+Kafka集成指南》所述:

相关问题