ApachePig—数据如何存储在cassandra复合键列族中

6g8kf2rb 于 2021-06-21 发布在 Pig

关注(0)|答案(2)|浏览(278)

我在DSE3.2.4中遇到了一些特殊的问题，这是我的表结构，

CREATE TABLE tbl_samp (
  PK text,
  CK1 varint,
  CK2 text,
  CK3 varint,
  value float,
  PRIMARY KEY (PK, CK1, CK2, CK3)
) WITH
  bloom_filter_fp_chance=0.010000 AND
  caching='KEYS_ONLY' AND
  comment='' AND
  dclocal_read_repair_chance=0.000000 AND
  gc_grace_seconds=864000 AND
  read_repair_chance=0.100000 AND
  replicate_on_write='true' AND
  populate_io_cache_on_flush='false' AND
  compaction={'class': 'SizeTieredCompactionStrategy'} AND
  compression={'sstable_compression': 'SnappyCompressor'};

我使用cqlstorage（）将大量数据从pig转储到cassandra；
我有大约112万个不同的组合（pk，ck1，ck2，ck3）
所以当我跑完Pig的时候
这是我的Pig亲戚

reqDataCQL = foreach reqData generate TOTUPLE(TOTUPLE('PK',PK), TOTUPLE('CK1',CK1), TOTUPLE('Ck2',CK2), TOTUPLE('CK3',Ck3)), TOTUPLE(value);

store reqDataCQL into 'cql://MyKeyspace/tbl_samp?output_query=update+MyKeyspace.tbl_samp+set+value+%3D+%3F' using CqlStorage();

我可以看到以下内容

Input(s):
Successfully read 34327 records from: "/user/k/Input.txt"
Successfully read 4 records from: "cql://MyKeySpace/mappingtable"

Output(s):
Successfully stored 1128902 records in: "cql://MyKeySpace/tbl_samp?output_query=update+conflux.to1+set+value+%3D+%3F"

但是当我查询tbl\u samp表时，我只能看到8600条记录，它们是（pk和ck1）的组合
这是我的计数查询

select count(1) from tbl_samp limit 2000000;

 count
-------
  8681

我对复合键的理解有差距吗？
我知道pk是我的行键，（ck1，ck2，ck3）和value的组合将是我的列名
我对Cassandra的理解是

PK,(CK1|CK2|CK3|value:1),(CK11|CK22|CK33|value:11)
PK1,(CK111|CK222|CK333|value:111)

请帮帮我

cassandra apache-pig datastax-enterprise cassandra-cli cqlsh

来源：https://stackoverflow.com/questions/24996213/how-data-is-stored-in-cassandra-composite-key-column-family

2条答案

按热度按时间

sqougxex1#

对不起，是我的错，我对复合键的理解是正确的。我有一个自定义项，我正在覆盖（pk，ck1，ck2，ck3）的组合
soo一般基于cassandra存储分区键，并结合分区键和聚类列给出每一行。
而列名将是唯一的聚类列组合。

PK,(CK1|CK2|CK3|value:1),(CK11|CK22|CK33|value:11)
PK1,(CK111|CK222|CK333|value:111)

谢谢

赞(0）回复(0）举报 2021-06-21

9gm1akwq2#

对于主键pk，ck1，ck2，ck3：
分区密钥是pk。它决定行进入哪个分区。在分区内，ck1、ck2和ck3的每个唯一组合定义了列。因此，主键中的所有键组成一个唯一的引用。如果插入多个具有相同pk、ck1、ck2和ck3的条目，则最后一次写入将获胜。
你的cql查询是什么？密钥空间的复制因子是多少？您为读写操作指定的一致性级别是什么？可能是您的读写一致性（rc和wc）很低，所以您正在读取尚未写入的副本。

赞(0）回复(0）举报 2021-06-21

我来回答

ApachePig—数据如何存储在cassandra复合键列族中

2条答案

相关问题

热门标签

最新问答