查询高基数字段

8i9zcol2 于 2021-06-14 发布在 Cassandra

关注(0)|答案(1)|浏览(375)

我正在为即将到来的cassandra迁移设计一个数据模型。一个订单有一个orderid（神秘的uuid字段）和一个ordernumber（用户友好的编号）。getorder查询可以使用这两个查询中的任何一个来完成。
我的分区键是orderid，所以getbyorderid不是问题。getbyordernumber是-有一个一对一的Mapb/w orderid和ordernumber（高基数字段），所以在每个节点上创建一个本地辅助索引会降低查询速度。
我想知道的是，我可以创建一个新表，其中ordernumber作为分区键，orderid作为唯一的列（类似于一个辅助索引，但由我维护）。现在，一个getbyordernumber查询可以在两个调用中解析。
请容忍我，如果上述解决方案是惊人的错误，我是非常新的Cassandra。据我所知，对于这样一个列，如果我使用局部二级索引，cassandra将不得不查询每个节点的单个顺序。所以我想为什么不创建另一个存储Map的表。
我自己管理这个索引会错过什么？有一件事我可以看到，如果每次写入，我现在必须更新两个表。别的？

cassandra nosql Database query-optimization

来源：https://stackoverflow.com/questions/57747584/querying-a-high-cardinality-field

1条答案

按热度按时间

w46czmvw1#

我想为什么不创建另一个存储Map的表。
没关系。来自Cassandra文件：
在下列情况下不要使用索引：
在高基数列上，因为您随后查询大量记录以获得少量结果。请参阅下面使用高基数列索引的问题。
使用高基数列索引的问题
如果在具有许多不同值的高基数列上创建索引，则字段之间的查询将导致许多查找，而结果却很少。在有10亿首歌曲的表格中，按作者查找歌曲（每个歌曲的值通常是唯一的）而不是按他们的录音师查找歌曲可能效率很低。。
将表作为索引的形式手动维护可能比使用内置索引更有效。对于包含唯一数据的列，为了方便起见，有时使用索引是很好的性能明智的做法，只要对具有索引列的表的查询量适中并且不是在恒定负载下。
相反，在基数极低的列（如布尔列）上创建索引是没有意义的。例如，索引中的每一个值都成为索引中的一行，导致所有假值都有一个巨大的行。索引大量具有foo=true和foo=false的索引列是没有用的。
对于cassandra数据建模来说，有一个非规范化的数据是正常的。

赞(0）回复(0）举报 2021-06-14

我来回答

查询高基数字段

1条答案

相关问题

热门标签

最新问答