linux下用java读取远程hdfs文件

xggvc2p6 于 2021-06-03 发布在 Hadoop

关注(0)|答案(3)|浏览(456)

我在简单的hadoop安装中遇到了一些问题。我已经下载了hadoop2.4.0并安装在一个centoslinux节点（虚拟机）上。我已经为一个节点配置了hadoop，并在apache站点上描述了伪分布(http://hadoop.apache.org/docs/r2.4.0/hadoop-project-dist/hadoop-common/singlecluster.html). 它从日志中没有任何问题开始，我可以使用命令行中的“hadoopfs”命令读写文件。
我正试图用javaapi从远程机器上的hdfs读取一个文件。机器可以连接并列出目录内容。它还可以确定是否存在包含以下代码的文件：

Path p=new Path("hdfs://test.server:9000/usr/test/test_file.txt");
FileSystem fs = FileSystem.get(new Configuration());
System.out.println(p.getName() + " exists: " + fs.exists(p));

系统打印“true”表示它存在。但是，当我尝试读取文件时：

BufferedReader br = null;
try {
    Path p=new Path("hdfs://test.server:9000/usr/test/test_file.txt");
    FileSystem fs = FileSystem.get(CONFIG);
    System.out.println(p.getName() + " exists: " + fs.exists(p));

    br=new BufferedReader(new InputStreamReader(fs.open(p)));
    String line = br.readLine();

    while (line != null) {
        System.out.println(line);
        line=br.readLine();
    }
}
finally {
    if(br != null) br.close();
}

此代码引发异常：
线程“main”org.apache.hadoop.hdfs.blockmissingexception中出现异常：无法获取块：bp-13917963-127.0.0.1-1398476189167:blk\u 1073741831\u 1007 file=/usr/test/test\u file.txt
谷歌给出了一些可能的建议，但都被证实了。数据节点已连接、处于活动状态并且具有足够的空间。hdfs dfsadmin–report的管理报告显示：
配置容量：52844687360（49.22 gb）
当前容量：48507940864（45.18 gb）
剩余dfs:48507887616（45.18 gb）
使用的dfs:53248（52 kb）
使用的dfs%：0.00%
复制块下：0
具有损坏副本的块：0
缺少块：0
可用数据节点：1（共1个，0个死亡）
实时数据节点：
名称：127.0.0.1:50010（test.server）
主机名：test.server
退役状态：正常
配置容量：52844687360（49.22 gb）
使用的dfs:53248（52 kb）
使用的非dfs:4336746496（4.04 gb）
剩余dfs:48507887616（45.18 gb）
使用的dfs%：0.00%
dfs剩余百分比：91.79%
配置的缓存容量：0（0 b）
使用的缓存：0（0 b）
剩余缓存：0（0 b）
缓存使用百分比：100.00%
缓存剩余百分比：0.00%
最后联系方式：2014年4月25日星期五22:16:56 pdt
客户端jar是直接从hadoop安装中复制的，因此没有版本不匹配。我可以用java类浏览文件系统并读取文件属性。我只是无法读取文件内容而不得到异常。如果我尝试用以下代码编写文件：

FileSystem fs = null;
BufferedWriter br = null;

System.setProperty("HADOOP_USER_NAME", "root");

try {
    fs = FileSystem.get(new Configuraion());

    //Path p = new Path(dir, file);
    Path p = new Path("hdfs://test.server:9000/usr/test/test.txt");
    br = new BufferedWriter(new OutputStreamWriter(fs.create(p,true)));
    br.write("Hello World");
}
finally {
    if(br != null) br.close();
    if(fs != null) fs.close();
}

这将创建文件，但不写入任何字节并引发异常：
线程“main”org.apache.hadoop.ipc.remoteexception（java.io.ioexception）中的异常：文件/usr/test/test.txt只能复制到0节点，而不是minreplication（=1）。此操作中有1个datanode正在运行，并且排除了1个节点。
在谷歌上搜索这一点表明可能存在空间问题，但从dfsadmin报告来看，似乎有足够的空间。这是一个普通的香草安装，我不能通过这个问题。
环境总结是：
服务器：
具有伪分布的hadoop 2.4.0(http://hadoop.apache.org/docs/r2.4.0/hadoop-project-dist/hadoop-common/singlecluster.html)
centos 6.5虚拟机64位服务器java 1.7.0_
客户：
windows 8（虚拟机）java 1.7.0\u 51
非常感谢您的帮助。

Java hadoop linux hdfs apache

来源：https://stackoverflow.com/questions/23307235/reading-remote-hdfs-file-with-java

3条答案

按热度按时间

7d7tgy0s1#

hadoop错误消息令人沮丧。他们往往不说自己的意思，与真正的问题无关。当客户机、namenode和datanode无法正常通信时，就会出现类似的问题。在你的情况下，我会从两个问题中选择一个：
您的集群在虚拟机中运行，其对客户端的虚拟化网络访问被阻止。
您使用的完全限定域名（fqdn）在客户端和主机之间的解析方式不一致。
主机名“test.server”非常可疑。检查以下各项：
test.server是fqdn吗？
这是您的conf文件中随处使用的名称吗？
客户机和所有主机是否可以正向和反向解析“test.server”及其ip地址并获得相同的结果？
是否在任何地方使用ip地址而不是fqdn？
“localhost”是否在任何地方使用？
必须删除fqdn、主机名、数字ip和本地主机使用中的任何不一致。永远不要在conf文件或客户机代码中混用它们。首选一致使用fqdn。数字ip的一致使用通常也有效。使用非限定主机名、localhost或127.0.0.1会导致问题。

赞(0）回复(0）举报 2021-06-03

xn1cxnb42#

我们需要确保设置了fs.default.name space的配置，例如 configuration.set("fs.default.name","hdfs://ourHDFSNameNode:50000"); 下面是一段示例代码：

Configuration configuration = new Configuration();
 configuration.set("fs.default.name","hdfs://ourHDFSNameNode:50000");
 FileSystem fs = pt.getFileSystem(configuration);
 BufferedReader br = new BufferedReader(new InputStreamReader(fs.open(pt)));
 String line = null;
 line = br.readLine
 while (line != null) {
  try {
    line = br.readLine
    System.out.println(line);
  }
}

赞(0）回复(0）举报 2021-06-03

tmb3ates3#

上面的答案指向正确的方向。请允许我补充以下内容：
namenode不直接读取或写入数据。
客户机（使用直接访问hdfs的java程序）与namenode交互以更新hdfs名称空间并检索块位置以进行读/写。
客户机直接与datanode交互以读取/写入数据。
您可以列出目录内容，因为 hostname:9000 你的客户端代码可以访问。你在做上面的数字2。
为了能够读写，您的客户机代码需要访问datanode（3号）。datanode dfs数据传输的默认端口是50010。有东西挡住了你和客户的联系 hostname:50010 . 可能是防火墙或ssh隧道配置问题。
我使用的是hadoop2.7.2，所以您可能有不同的端口号设置。

赞(0）回复(0）举报 2021-06-03

我来回答

linux下用java读取远程hdfs文件

3条答案

相关问题

热门标签

最新问答