apachespark通过跨集群访问hdfs中的数据

kse8i1jr 于 2021-06-02 发布在 Hadoop

关注(0)|答案(1)|浏览(439)

我在amazon emr上运行spark，它的公共dns是， 23.21.40.15 .
现在我在这个集群上执行sparkjar&我想将spark作业的输出写入其他amazonemrhdf，它们的公共dns是 29.45.56.72 .
我能够访问自己的集群hdfs，即。 23.21.40.15 但是我不能给集群写信 29.45.56.72 .
我需要做什么才能让我的spark工作访问跨集群hdfs？？
如果可能的话，有人能分享一个示例代码吗？？

hadoop apache-spark databricks amazon-emr

来源：https://stackoverflow.com/questions/38185273/apache-spark-accessing-the-data-in-hdfs-through-cross-cluster

1条答案

按热度按时间

j2qf4p5b1#

在spark作业中设置输出目录时，可以按如下方式设置访问它的凭据：

hdfs://username:password@hostname:port/pathToFolder

pd：您不应该在公共问题中编写集群的ip；）

赞(0）回复(0）举报 2021-06-02

我来回答

apachespark通过跨集群访问hdfs中的数据

1条答案

相关问题

热门标签

最新问答