cassandra查询性能：对复合分区键的一部分使用in子句

j8ag8udp 于 2021-06-10 发布在 Cassandra

关注(0)|答案(1)|浏览(307)

我目前在cassandra中设置了一个表，该表有文本、十进制或日期类型的列，其中包含业务日期和帐号的复合分区键。对于此表的查询，我需要能够支持对给定日期的单个帐户或帐户列表的查找。
例子：

select x,y,z from my_table where business_date = '2019-04-10' and account_number IN ('AAA', 'BBB', 'CCC')
//Note: Both partition keys are provided for this query

我一直在努力解决与访问这些数据相关的性能问题，因为我注意到延迟模式，我在试图理解/解释时遇到了困难。
在许多情况下，客户机应用程序可以在短时间内运行相同的查询，总共三次。对于这些场景，我看到三分之二的请求的响应时间非常糟糕（800毫秒），其中一个请求的响应时间非常快（50毫秒）。一开始我认为这可能是由于键或行缓存造成的，但是，我不太确定，因为我认为如果这是真的，那么三个请求中的第三个请求应该总是最快的，事实并非如此。
我认为我面临的第二个问题是实际的数据模型本身。尽管提交查询时提供了所有的分区键，但由于它是in子句，结果将是单独的分区，并且可以分布在集群中，因此这将是一种糟糕的访问模式。但是，即使运行单个帐户查询，我也会看到这些延迟问题。另外，我看到有15-20个帐户的查询执行得非常好（在50ms以下），所以我不确定数据模型是否真的有问题。
群集设置：
数据中心：2个
每个数据中心的节点数：3
键空间replication:local_dc =2，远程\u dc=2
java驱动程序集：
负载平衡：使用LatencyWare的dcaware
协议：v3
查询仍然设置为使用“in”子句，而不是异步的单个查询
读取一致性：本地
有没有人有什么想法/线索，我应该把重点放在真正确定这个问题的根本原因方面？

cassandra query-optimization datastax-java-driver

来源：https://stackoverflow.com/questions/55604857/cassandra-query-performance-using-in-clause-for-one-portion-of-the-composite-pa

1条答案

按热度按时间

w1e3prcc1#

使用 IN 对于分区键，即使对于复合分区键，也总是不好的主意。分区键的值定义了数据在集群中的位置，不同的分区键值很可能将数据放在不同的服务器上。在这种情况下，协调节点（接收到查询的节点）需要联系保存数据的节点，等待这些节点传递结果，然后才将结果发送回您。
如果您需要查询多个分区键，那么异步发出单个查询并在客户端收集结果会更快。
另外，请注意，tokenaware策略在您使用 PreparedStatement -在这种情况下，驱动程序能够提取分区键的值，并找到哪个服务器为它保存数据。

赞(0）回复(0）举报 2021-06-10

我来回答

cassandra查询性能：对复合分区键的一部分使用in子句

1条答案

相关问题

热门标签

最新问答