java—将文件(config)从hdfs复制到每个spark执行器的本地工作目录

yuvru6vn  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(253)

我正在研究如何使用java将hdfs中包含资源依赖文件的文件夹复制到每个spark执行器的本地工作目录。
我最初考虑使用spark submit的--files选项,但它似乎不支持任意嵌套文件的文件夹。因此,在运行作业之前,我似乎必须将此文件夹放在共享的hdfs路径上,以便每个执行器将其正确复制到其工作目录中,但还没有找到如何在java代码中正确执行该操作。
或者zip/gzip/archive这个文件夹,把它放在共享的hdfs路径上,然后将归档文件分解到每个spark执行器的本地工作目录。
任何帮助或代码样本都将不胜感激。
这是一个配置文件的文件夹,它们是compute的一部分,应该与spark submit main jar(例如数据库文件,jar代码在运行作业时使用这些文件,不幸的是,我无法更改此依赖关系,因为我正在重用现有代码)。
问候,-尤里

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题