我正试着用普罗米修斯警报监控我的flink工作的可用性。
我试过flink\u jobmanager\u job\u正常运行时间/停机时间指标,但它们似乎不适合,因为它们只是在工作失败/完成后才停止被任命。我已经被指向numrunningjobs度量,以便提醒丢失的作业。我不想使用这个解决方案,因为每次部署新作业时都必须更新prometheus配置。
有没有人用普罗米修斯制造了一个Flink任务失败的警报?
我正试着用普罗米修斯警报监控我的flink工作的可用性。
我试过flink\u jobmanager\u job\u正常运行时间/停机时间指标,但它们似乎不适合,因为它们只是在工作失败/完成后才停止被任命。我已经被指向numrunningjobs度量,以便提醒丢失的作业。我不想使用这个解决方案,因为每次部署新作业时都必须更新prometheus配置。
有没有人用普罗米修斯制造了一个Flink任务失败的警报?
1条答案
按热度按时间velaa5lx1#
prometheus有一个缺席()函数,如果度量不存在,它将返回1。所以,您可以将alert表达式设置为