已安装spark,但未找到命令“hdfs”或“hadoop”

mzaanser  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(328)

我是pyspark的新用户。我刚刚下载并安装了一个spark集群(“spark-2.0.2-bin-hadoop2.7.tgz”),安装之后我想访问文件系统(将本地文件上传到集群)。但当我试图在命令中键入hadoop或hdfs时,它会说“找不到命令”。
我要安装hadoop/hdfs吗(我以为它是spark内置的,我不明白)?
提前谢谢。

8e2ybdfx

8e2ybdfx1#

你没有 hdfs 或者 hadoop 在类路径上,所以这就是您收到消息的原因:“找不到命令”。
如果你跑了 \yourparh\hadoop-2.7.1\bin\hdfs dfs -ls / 它应该工作并显示根内容。
但是,你可以添加你的 hadoop/bin ( hdfs , hadoop …)类路径的命令如下:

export PATH $PATH:$HADOOP_HOME/bin

哪里 HADOOP_HOME 是你的环境。带路径的变量 hadoop 安装文件夹(需要下载并安装)

c0vxltue

c0vxltue2#

必须先安装hadoop才能访问hdfs。跟着这个http://www.michael-noll.com/tutorials/running-hadoop-on-ubuntu-linux-single-node-cluster/
从apache站点选择最新版本的hadoop。一旦你完成了hadoop设置,就去sparkhttp://d3kbcqa49mib13.cloudfront.net/spark-2.0.2-bin-hadoop2.7.tgz 下载这个,提取文件。在spark-env.sh中安装java\u home和hadoop\u home。

相关问题