apachespark通过跨集群访问hdfs中的数据

kse8i1jr  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(439)

我在amazon emr上运行spark,它的公共dns是, 23.21.40.15 .
现在我在这个集群上执行sparkjar&我想将spark作业的输出写入其他amazonemrhdf,它们的公共dns是 29.45.56.72 .
我能够访问自己的集群hdfs,即。 23.21.40.15 但是我不能给集群写信 29.45.56.72 .
我需要做什么才能让我的spark工作访问跨集群hdfs??
如果可能的话,有人能分享一个示例代码吗??

j2qf4p5b

j2qf4p5b1#

在spark作业中设置输出目录时,可以按如下方式设置访问它的凭据:

hdfs://username:password@hostname:port/pathToFolder

pd:您不应该在公共问题中编写集群的ip;)

相关问题