我使用的是ApacheNutch2.3、Hadoop1.2.1(3个数据节点)、hbase 0.94和Solr4.8。为了运行apachenutch是分布式模式。我做以下步骤
转到运行时/部署目录
已将apache-nutch-2.3.jar复制到部署目录
运行这个命令runtime/deploy/bin/crawl url/hbase\u tablehttp://solrhost:8983/溶液1
其中hbase\u table是nutch将存储数据的hbase表的名称。命令启动后,将为每个phbase启动mapreduce作业,即inject、generate、fetech、dedup、sorlrindex。所有这些mapreduce作业都没有出现任何错误。但当我从hdfs检查时,hbase\ u表中没有数据。配置的问题在哪里。不幸的是,分布式模式指南中的apachenutch并不完全可用(根据我的搜索)
2条答案
按热度按时间pvabu6sv1#
在apachenutch的分布式模式下,您必须检查tasktracker的日志。爬网文档的详细信息应该在那里,而不是在mapreduce日志中。它的url将类似(如果您使用的是默认配置)
http://data-node-ip:50060/logs/hadoop-{user-name}-tasktracker-{machine-name}.log
yrdbyhpb2#
我也有同样的问题,但软件版本有些更新。看到这个post nutch solr dataimport处理程序了吗?
作为一种解决方法,您可以通过打开hbase shell并运行这些命令来计算hbase中的记录
或者,不要将所有命令作为一个批处理运行,而是尝试单独运行它们。
否则可以粘贴日志文件。