spark streaming如何重新运行失败的批处理作业

n3h0vuf2  于 2021-06-07  发布在  Kafka
关注(0)|答案(0)|浏览(201)

我的问题是。我使用spark streaming从kafka和directsteam api读取数据,处理rdd,然后手动更新zookeeper偏移量。Kafka的数据将被读取并插入到配置单元表中。现在我遇到一个问题。有时,配置单元元存储进程由于某种原因退出。(现在配置单元元存储是单的)某些批处理作业将因此失败,spark流式处理作业不会退出,只需记录一些警告。然后,当我重新启动配置单元元存储过程时,程序将继续,新的批处理作业将成功。但是我发现Kafka失败的批读取数据丢失了。我从工作细节中看到了元数据。一个批处理作业从Kafka读取20偏移量的图像。batch1 job read offset 1 20,batch2 job read offset 21 40如果batch1 job失败,batch2成功,则失败的1 job的数据将丢失。我该怎么做?如何重新运行失败的批处理作业?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题