高效地将大量数据移动到elasticseach hadoop

rseugnpd 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(306)

我使用rabbitmq和一组工作人员从twitter下载tweet并处理它们。我还有一个hadoop上的elasticsearch示例。我需要的是将收集到的每一条tweet移到那个示例中，但是由于我正在处理大量的数据，我不知道如何做到这一点。
如何将数据移动到elasticsearch？会不会太多，使插入每个推文收到？Flume适合这个吗？我主要关心的是避免平台中的瓶颈。实际上，我现在不使用flume来获取tweet，因为我需要多个具有不同关键字的代理，并且每30分钟动态更新一次关键字。

hadoop flume elasticsearch twitter Persistence

来源：https://stackoverflow.com/questions/28075592/move-big-amount-of-data-to-elasticseach-hadoop-efficiently

1条答案

按热度按时间

lx0bsm1f1#

你有几个选项可以将你的tweet索引到elasticsearch中，因为你已经公开了你的架构。我将考虑的三个主要选择：
use可以使用elasticsearch rabbitmq河：这将自动将rabbitmq队列的所有内容索引到es中。链接在这里：https://github.com/elasticsearch/elasticsearch-river-rabbitmq/blob/master/readme.md
请注意，他们的示例是索引tweet，这些tweet通过rabbitmq路由到es中，因此它似乎很适合您的模型。你可能想读一读关于es rivers的书：http://www.elasticsearch.org/guide/en/elasticsearch/rivers/current/
使用logstash从rabbitmq中提取并加载到elasticsearch中：http://www.logstash.net/docs/1.4.2/inputs/rabbitmq 以及http://www.logstash.net/docs/1.4.2/outputs/elasticsearch
通过rest api滚动您自己的索引接口：文档和示例如下：http://www.elasticsearch.org/guide/en/elasticsearch/reference/current/docs-index_.html 请注意，该示例也用于加载tweet。如果您担心每次索引一条tweet的性能影响，那么它还支持通过api进行批量插入。

赞(0）回复(0）举报 2021-06-04

我来回答

高效地将大量数据移动到elasticseach hadoop

1条答案

相关问题

热门标签

最新问答