ApacheNutch不会从web上爬行

xggvc2p6  于 2021-05-29  发布在  Hadoop
关注(0)|答案(2)|浏览(257)

我使用的是ApacheNutch2.3、Hadoop1.2.1(3个数据节点)、hbase 0.94和Solr4.8。为了运行apachenutch是分布式模式。我做以下步骤
转到运行时/部署目录
已将apache-nutch-2.3.jar复制到部署目录
运行这个命令runtime/deploy/bin/crawl url/hbase\u tablehttp://solrhost:8983/溶液1
其中hbase\u table是nutch将存储数据的hbase表的名称。命令启动后,将为每个phbase启动mapreduce作业,即inject、generate、fetech、dedup、sorlrindex。所有这些mapreduce作业都没有出现任何错误。但当我从hdfs检查时,hbase\ u表中没有数据。配置的问题在哪里。不幸的是,分布式模式指南中的apachenutch并不完全可用(根据我的搜索)

pvabu6sv

pvabu6sv1#

在apachenutch的分布式模式下,您必须检查tasktracker的日志。爬网文档的详细信息应该在那里,而不是在mapreduce日志中。它的url将类似(如果您使用的是默认配置) http://data-node-ip:50060/logs/hadoop-{user-name}-tasktracker-{machine-name}.log

yrdbyhpb

yrdbyhpb2#

我也有同样的问题,但软件版本有些更新。看到这个post nutch solr dataimport处理程序了吗?
作为一种解决方法,您可以通过打开hbase shell并运行这些命令来计算hbase中的记录

> list (this will make sure the table is getting created.)
> count 'hbase_table' (this will give you records in it.)

或者,不要将所有命令作为一个批处理运行,而是尝试单独运行它们。
否则可以粘贴日志文件。

相关问题