如何在spark cluster上运行外部可执行文件

6uxekuva 于 2021-07-14 发布在 Spark

关注(0)|答案(0)|浏览(250)

我有一个可执行文件（黑盒），我正在我的linux本地文件系统中运行。可执行文件接受多个输入文件并生成多个输出文件。
现在，我在hdfs中有了更大的数据集，这些数据集应该作为可执行文件的输入。因此，如果我尝试将hdfs数据下放到本地文件系统中，可执行文件会花费很长时间来处理它们。因此，我想将可执行文件分发到spark/yarn，它位于所有worker/executor节点中。然后，我将hdfs数据集读入sparkDataframe，并将Dataframe写入driver/executor的工作目录，我的可执行程序可以读取和处理这些Dataframe，并在driver节点的工作目录中生成输出。
然后我读取驱动程序工作目录中的输出，并根据需要将它们加载到配置单元表中。
对可能的解决方法有什么想法或建议吗？

apache-spark spark-submit File Archive Executable

来源：https://stackoverflow.com/questions/67203088/how-to-run-an-external-executable-on-spark-cluster