需要并行运行多个spark作业,该作业运行从配置文件获取参数的脚本。配置文件将有一个参数值列表,每个值都需要运行spark submit作业。例如:我有一个场景,一些csv文件是从hdfs中的多个位置选取的,需要并行处理,并且每个文件都有一个唯一的id作为参数传递给spark job,文件id必须与spark job一起在配置文件中传递,对于每个id,必须有一个spark job并行运行。
需要并行运行多个spark作业,该作业运行从配置文件获取参数的脚本。配置文件将有一个参数值列表,每个值都需要运行spark submit作业。例如:我有一个场景,一些csv文件是从hdfs中的多个位置选取的,需要并行处理,并且每个文件都有一个唯一的id作为参数传递给spark job,文件id必须与spark job一起在配置文件中传递,对于每个id,必须有一个spark job并行运行。
暂无答案!
目前还没有任何答案,快来回答吧!