spark streaming如何重新运行失败的批处理作业

n3h0vuf2 于 2021-06-07 发布在 Kafka

关注(0)|答案(0)|浏览(201)

我的问题是。我使用spark streaming从kafka和directsteam api读取数据，处理rdd，然后手动更新zookeeper偏移量。Kafka的数据将被读取并插入到配置单元表中。现在我遇到一个问题。有时，配置单元元存储进程由于某种原因退出。（现在配置单元元存储是单的）某些批处理作业将因此失败，spark流式处理作业不会退出，只需记录一些警告。然后，当我重新启动配置单元元存储过程时，程序将继续，新的批处理作业将成功。但是我发现Kafka失败的批读取数据丢失了。我从工作细节中看到了元数据。一个批处理作业从Kafka读取20偏移量的图像。batch1 job read offset 1 20，batch2 job read offset 21 40如果batch1 job失败，batch2成功，则失败的1 job的数据将丢失。我该怎么做？如何重新运行失败的批处理作业？

apache-kafka apache-spark spark-streaming

来源：https://stackoverflow.com/questions/46251276/how-can-spark-streaming-rerun-the-failed-batch-job