如何在pyspark中并行运行作业?

lskq00tm  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(395)

我正试图以一种平行的方式来管理工作。你能帮我怎么做吗?
例子:

Job       Job_Type
A         independent
B         independent
C         A
D         B

你可以在这里看到作业a,b是独立的,所以它们将在同一时间运行。c和d依赖于a和b。因此,它们将在各自的工作完成后运行。假设a需要10分钟,b需要15分钟,那么在完成a之后,c应该立即开始。
我们能为这个场景创建逻辑吗?如果你需要更多的信息,请告诉我。

ig9co6j1

ig9co6j11#

我不确定您使用的是什么编排工具,但您可以创建一个如下所示的作业..或者这就是我所遵循的。。
创建一个基于规则的作业,例如:c将在a有新数据时更新

相关问题