我的问题是。我使用spark streaming从kafka和directsteam api读取数据,处理rdd,然后手动更新zookeeper偏移量。Kafka的数据将被读取并插入到配置单元表中。现在我遇到一个问题。有时,配置单元元存储进程由于某种原因退出。(现在配置单元元存储是单的)某些批处理作业将因此失败,spark流式处理作业不会退出,只需记录一些警告。然后,当我重新启动配置单元元存储过程时,程序将继续,新的批处理作业将成功。但是我发现Kafka失败的批读取数据丢失了。我从工作细节中看到了元数据。一个批处理作业从Kafka读取20偏移量的图像。batch1 job read offset 1 20,batch2 job read offset 21 40如果batch1 job失败,batch2成功,则失败的1 job的数据将丢失。我该怎么做?如何重新运行失败的批处理作业?
暂无答案!
目前还没有任何答案,快来回答吧!