需要并行运行多个spark作业，从配置文件获取一个参数

sg24os4d 于 2021-05-16 发布在 Spark

关注(0)|答案(0)|浏览(236)

需要并行运行多个spark作业，该作业运行从配置文件获取参数的脚本。配置文件将有一个参数值列表，每个值都需要运行spark submit作业。例如：我有一个场景，一些csv文件是从hdfs中的多个位置选取的，需要并行处理，并且每个文件都有一个唯一的id作为参数传递给spark job，文件id必须与spark job一起在配置文件中传递，对于每个id，必须有一个spark job并行运行。

apache-spark apache-spark-sql spark-submit

来源：https://stackoverflow.com/questions/65278669/need-to-run-multiple-spark-jobs-in-parallel-taking-a-parameter-from-config-file