我在cloudera集群中运行的hbase示例中有一些列。我有一个列,其中包含未规范化的电话号码(比如phonenum)(它们来自带有许多前缀的呼叫中心)。例如107065777113512#)。我需要查询数据库,以便找到一个特定的电话号码(没有选项),所以它将是一个在phonenum的一些记录的子字符串。问题如下:如何索引hbase以获得良好的性能并避免fullscan?我读过solr integration,lucene,lily,但是我不知道它们是否适用于这个问题。提前谢谢!
omjgkv6w1#
你正在寻找一些解决方案,你可以做一些子字符串搜索。使用solr可以实现的。solr为您提供了自由文本搜索。你可以在solr中找到很多搜索优势,但hbase无法提供这些优势。从调查开始https://wiki.apache.org/solr/.
dgenwo3n2#
hbase在列上没有索引。它完全由键索引。您可以创建第二个以标准化电话号码为键的表,然后使用列值链接回原始表,但这都是手动的,不会随原始表中的更改而更新。
2条答案
按热度按时间omjgkv6w1#
你正在寻找一些解决方案,你可以做一些子字符串搜索。使用solr可以实现的。
solr为您提供了自由文本搜索。你可以在solr中找到很多搜索优势,但hbase无法提供这些优势。从调查开始https://wiki.apache.org/solr/.
dgenwo3n2#
hbase在列上没有索引。它完全由键索引。您可以创建第二个以标准化电话号码为键的表,然后使用列值链接回原始表,但这都是手动的,不会随原始表中的更改而更新。