flink部署生产标准

jchrr9hc  于 2021-06-21  发布在  Flink
关注(0)|答案(1)|浏览(289)

我们有一个由不同团队管理的flink集群。群集在多个作业之间共享。因此,在任何特定的时间,任何任务管理器都有运行不同作业操作的插槽-
在prod中与其他作业共享集群是否可取?
如果一个作业失败,它会同时杀死运行另一个作业的线程的任务管理器吗?
如果我们没有其他方法,必须使用共享集群,那么处理异常情况的最佳方法是什么,以便在任务管理器因致命错误自杀时不会杀死另一个作业?

lskq00tm

lskq00tm1#

我建议您使用flink的作业模式,其中每个作业都有一个专用的flink集群。这会给你工作上的孤立感,一份恶意的flink工作不会阻碍你的其他工作。
如果一个作业由于任务失败而失败,那么这不会影响在同一台计算机上执行的其他作业 TaskManager .
如果 TaskManager 失败,则当前执行的所有任务都将失败。因此,至少有一个任务在此服务器上执行的所有作业 TaskManager 将失败,然后需要恢复。目前,没有办法在共享集群上强制每个作业隔离。然而,有一个jira问题试图通过引入工作级别标签来解决这个问题。这些标签可用于控制属于不同作业的任务的调度。

相关问题