如何将hadoop数据复制到solr

b5buobof 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(352)

我有一个solr搜索，它使用lucene索引作为后端。我也有一些数据在hadoop我想使用。如何将这些数据复制到solr？？
在google上我能找到的唯一的likns告诉我如何在solr中使用hdfs索引而不是本地索引。我不想直接从hadoop读取索引，我想将它们复制到solr并从那里读取。
如何复制？如果有一些增量复制机制那就太好了。

hadoop hdfs solr lucene

来源：https://stackoverflow.com/questions/23486538/how-can-i-copy-hadoop-data-to-solr

2条答案

按热度按时间

ippsafx71#

如果您有一个独立的solr示例，那么您可能会面临一些扩展问题，具体取决于数据量。
我假设你使用的是hadoop/hdfs。在这种情况下，您可能需要查看solrcloud。
至于阅读hdfs，下面是lucidimagination的教程，它解决了这个问题，并推荐使用behemoth
您可能还想看看katta项目，它声称要与hadoop集成，并提供对大型数据集的近实时读取访问。架构如图所示
编辑1
Solr有这方面的公开票。对hdfs的支持定于solr4.9。如果你喜欢的话，你可以贴上补丁。

赞(0）回复(0）举报 2021-06-03

rkttyhzu2#

您不能只将自定义数据复制到solr，您需要索引它。数据可以有任何类型和格式（自由文本、xml、json甚至二进制数据）。要在solr中使用它，您需要创建文档（以键/值对作为字段的平面Map）并将它们添加到solr中。看看这个简单的基于 curl 的例子。
注意，从hdfs读取数据是另一个问题。对于solr来说，从哪里读取数据并不重要，只要提供文档即可。
在本地磁盘或hdfs中存储索引也是另一个问题。如果您希望您的索引非常大，那么可以将solr配置为使用hdfs。否则，可以使用默认属性并使用本地磁盘。

-“索引”是将文档添加到solr的常用术语，但实际上，将文档添加到solr内部存储和索引（使字段可搜索）是两件截然不同的事情，可以单独配置。

赞(0）回复(0）举报 2021-06-03

我来回答

如何将hadoop数据复制到solr

2条答案

相关问题

热门标签

最新问答