普罗米修斯警告Flink失败的工作?

nx7onnlm  于 2021-06-24  发布在  Flink
关注(0)|答案(1)|浏览(425)

我正试着用普罗米修斯警报监控我的flink工作的可用性。
我试过flink\u jobmanager\u job\u正常运行时间/停机时间指标,但它们似乎不适合,因为它们只是在工作失败/完成后才停止被任命。我已经被指向numrunningjobs度量,以便提醒丢失的作业。我不想使用这个解决方案,因为每次部署新作业时都必须更新prometheus配置。
有没有人用普罗米修斯制造了一个Flink任务失败的警报?

velaa5lx

velaa5lx1#

prometheus有一个缺席()函数,如果度量不存在,它将返回1。所以,您可以将alert表达式设置为

absent(flink_jobmanager_job_uptime) == 1

相关问题