如何加载spark中存储在ec2单节点hadoop集群中的数据集

z4bn682m 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(227)

我在尝试使用pyspark访问ec2hdfs单节点集群中存储的文件时遇到了一个问题。我面临例外。我应该使用哪个端口访问ec2示例中hdfs中存储的文件？
py4jjavaerror:调用z:org.apache.spark.api.pythonrdd.collectandserve时出错：java.net.connectexception:从ip-172-31-22-162/172.31.22.162调用ec2-54-191-171-11.us-west-2.compute.amazonaws。com:9000 failed on连接异常：java.net.connectexception：连接被拒绝；有关详细信息，请参阅：http://wiki.apache.org/hadoop/connectionrefused

hadoop apache-spark pyspark amazon-web-services amazon-ec2

来源：https://stackoverflow.com/questions/57124927/how-to-load-a-dataset-stored-in-ec2-single-node-hadoop-cluster-in-spark