googledataflow的工作流编排

ivqmmu1c  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(359)

我们正在使用googledataflow进行批处理数据,并寻找工作流编排工具的一些选项,类似于azkaban为hadoop所做的工作。
我们要找的关键是,
配置工作流
计划工作流
监视和警报失败的工作流
重新运行失败作业的能力
我们已经评估了pentaho,但是这些特性在他们的企业版中是可用的,这是昂贵的。我们目前正在评估azkaban,因为它支持javaprocess作业类型。但是azkaban主要是为hadoop作业创建的,因此它与hadoop基础设施的集成比普通javaprocess更深入。
感谢您对开源或低成本解决方案的建议。

bgtovc5b

bgtovc5b1#

听起来像是空气流动(https://github.com/apache/incubator-airflow)应该可以满足您的需要,现在它有一个数据流操作符(https://github.com/apache/incubator-airflow/blob/master/airflow/contrib/operators/dataflow_operator.py).

uajslkp6

uajslkp62#

为了协调google数据流,我们可以使用cloud composer,它是构建在apache airflow上的托管工作流协调服务。它提供了更大的灵活性,使用它我们可以协调大多数跨本地和公共云的google服务和工作流。

相关问题