Kafka的Spark补偿管理

wkftcu5l 于 2021-05-24 发布在 Spark

关注(0)|答案(1)|浏览(359)

我正在使用spark structured streaming（2.3.2版）。我需要从Kafka集群中读取数据并将其写入kerberizedKafka。在这里，我想在记录写入kerberized kafka之后使用kafka作为偏移检查点。
问题：
我们可以使用kafka作为检查点来管理偏移量，还是只需要使用hdfs/s3？
请帮忙。

apache-spark spark-structured-streaming spark-kafka-integration

来源：https://stackoverflow.com/questions/64133091/spark-offset-management-in-kafka

1条答案

按热度按时间

lh80um4z1#

我们可以使用kafka检查点来管理偏移量吗
不，不能将偏移提交回源kafka主题。当然，官方的spark structured streaming+kafka集成指南中也详细介绍了这一点。
或者我们只需要使用hdfs/s3吗？
是的，这必须是类似hdfs或s3的东西。《structuredstreaming编程指南》的“使用检查点从故障中恢复”一节对此进行了说明：“此检查点位置必须是hdfs兼容文件系统中的路径，并且可以在启动查询时在datastreamwriter中设置为选项。”

赞(0）回复(0）举报 2021-05-25

我来回答

Kafka的Spark补偿管理

1条答案

相关问题

热门标签

最新问答