将31个spark/scala并行作业从本地迁移到dataproc的最佳方式是什么?

ig9co6j1  于 2021-07-14  发布在  Spark
关注(0)|答案(0)|浏览(109)

关闭。这个问题需要更加突出重点。它目前不接受答案。
**想改进这个问题吗?**通过编辑这篇文章更新这个问题,使它只关注一个问题。

两天前关门了。
改进这个问题
我是一个谷歌云新手,需要你的帮助迁移到gcp的一些工作。
前提是,我有:
31个并行运行的独立spark/scala作业
每个作业执行相同的代码,但有不同的输入(配置单元表)和不同的输出(配置单元表)
每个作业每天运行6次(它们都在同一时间启动)
我想使用参数化工作流模板的dataproc。
由于输入表卷不同,我应该按群集创建作业吗?(这样我就可以根据需要调整群集资源)还是在同一个群集中运行其中的一些作业(完成这些作业所需时间较少),其余的则在不同的群集上运行?
先谢谢你。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题