java—将文件(config)从hdfs复制到每个spark执行器的本地工作目录

yuvru6vn 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(253)

我正在研究如何使用java将hdfs中包含资源依赖文件的文件夹复制到每个spark执行器的本地工作目录。
我最初考虑使用spark submit的--files选项，但它似乎不支持任意嵌套文件的文件夹。因此，在运行作业之前，我似乎必须将此文件夹放在共享的hdfs路径上，以便每个执行器将其正确复制到其工作目录中，但还没有找到如何在java代码中正确执行该操作。
或者zip/gzip/archive这个文件夹，把它放在共享的hdfs路径上，然后将归档文件分解到每个spark执行器的本地工作目录。
任何帮助或代码样本都将不胜感激。
这是一个配置文件的文件夹，它们是compute的一部分，应该与spark submit main jar（例如数据库文件，jar代码在运行作业时使用这些文件，不幸的是，我无法更改此依赖关系，因为我正在重用现有代码）。
问候，-尤里

Java hadoop hdfs apache-spark spark-submit

来源：https://stackoverflow.com/questions/46515032/copy-files-config-from-hdfs-to-local-working-directory-of-every-spark-executor