solr在大数据检索中的性能

9gm1akwq  于 2021-06-02  发布在  Hadoop
关注(0)|答案(0)|浏览(268)

我的用例
我每天有20gb的文件(管道分隔文本文件)
我索引了90天的数据(20*90 gb)
创纪录——55亿
字段总数-30
索引字段-呼叫号码、呼叫号码、时间键
所有其他字段都按照schema.cml存储
索引大小-300gb
碎片数量=4
我使用下面的方法编制索引(org.apache.solr.hadoop.mapreduceindexertool)

hadoop jar /usr/lib/solr/contrib/mr/search-mr-*-job.jar org.apache.solr.hadoop.M apReduceIndexerTool \
    --morphline-file $path/morphlines.conf –output -dir hdfs://MASTERNODE:8020/$path2 \
    --go-live --zk-host MASTERNODE:2181/solr \
    --collection COLLECTIONNAME \
    --mappers 4 \
    --reducers 12 hdfs://Masternode/path/asd.txt

在我的测试台上,我有4个数据节点和1个名称节点(cloudera5.4.7)上的测试台,每个节点都有256gbram,在solr中有什么提高性能的建议吗?
一次搜索(基于时间键的范围查询)大约花了120秒才得到3000条记录。但在第一次查询之后,它会被缓存,然后如果我再次执行,我会在不到1秒的时间内得到响应,同时输出较大的记录(10000个记录也会在1秒内得到)
请注意,在检索10-20条记录时,第一次本身的性能很好。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题