ApacheNutch不会从web上爬行

xggvc2p6 于 2021-05-29 发布在 Hadoop

关注(0)|答案(2)|浏览(257)

我使用的是ApacheNutch2.3、Hadoop1.2.1（3个数据节点）、hbase 0.94和Solr4.8。为了运行apachenutch是分布式模式。我做以下步骤
转到运行时/部署目录
已将apache-nutch-2.3.jar复制到部署目录
运行这个命令runtime/deploy/bin/crawl url/hbase\u tablehttp://solrhost：8983/溶液1
其中hbase\u table是nutch将存储数据的hbase表的名称。命令启动后，将为每个phbase启动mapreduce作业，即inject、generate、fetech、dedup、sorlrindex。所有这些mapreduce作业都没有出现任何错误。但当我从hdfs检查时，hbase\ u表中没有数据。配置的问题在哪里。不幸的是，分布式模式指南中的apachenutch并不完全可用（根据我的搜索）

Java hadoop solr nutch

来源：https://stackoverflow.com/questions/34412927/apache-nutch-in-distributed-mode-not-going-to-crawl-from-web

2条答案

按热度按时间

pvabu6sv1#

在apachenutch的分布式模式下，您必须检查tasktracker的日志。爬网文档的详细信息应该在那里，而不是在mapreduce日志中。它的url将类似（如果您使用的是默认配置） http://data-node-ip:50060/logs/hadoop-{user-name}-tasktracker-{machine-name}.log

赞(0）回复(0）举报 2021-05-30

yrdbyhpb2#

我也有同样的问题，但软件版本有些更新。看到这个post nutch solr dataimport处理程序了吗？
作为一种解决方法，您可以通过打开hbase shell并运行这些命令来计算hbase中的记录

> list (this will make sure the table is getting created.)
> count 'hbase_table' (this will give you records in it.)

或者，不要将所有命令作为一个批处理运行，而是尝试单独运行它们。
否则可以粘贴日志文件。

赞(0）回复(0）举报 2021-05-30

我来回答

ApacheNutch不会从web上爬行

2条答案

相关问题

热门标签

最新问答