solr在大数据检索中的性能

9gm1akwq 于 2021-06-02 发布在 Hadoop

关注(0)|答案(0)|浏览(268)

我的用例
我每天有20gb的文件(管道分隔文本文件）
我索引了90天的数据（20*90 gb）
创纪录——55亿
字段总数-30
索引字段-呼叫号码、呼叫号码、时间键
所有其他字段都按照schema.cml存储
索引大小-300gb
碎片数量=4
我使用下面的方法编制索引（org.apache.solr.hadoop.mapreduceindexertool）

hadoop jar /usr/lib/solr/contrib/mr/search-mr-*-job.jar org.apache.solr.hadoop.M apReduceIndexerTool \
    --morphline-file $path/morphlines.conf –output -dir hdfs://MASTERNODE:8020/$path2 \
    --go-live --zk-host MASTERNODE:2181/solr \
    --collection COLLECTIONNAME \
    --mappers 4 \
    --reducers 12 hdfs://Masternode/path/asd.txt

在我的测试台上，我有4个数据节点和1个名称节点(cloudera5.4.7）上的测试台，每个节点都有256gbram，在solr中有什么提高性能的建议吗？
一次搜索（基于时间键的范围查询）大约花了120秒才得到3000条记录。但在第一次查询之后，它会被缓存，然后如果我再次执行，我会在不到1秒的时间内得到响应，同时输出较大的记录（10000个记录也会在1秒内得到）
请注意，在检索10-20条记录时，第一次本身的性能很好。

hadoop solr cloudera cloudera-cdh search

来源：https://stackoverflow.com/questions/36352264/solr-performance-with-large-data-retrieval