hadoop sequencefile大小

g6ll5ycj 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(240)

我正在创建hadoop向量的键值对的hashmap，它存储在sequencefile中。为了提高效率，我想知道键值对的向量有多长，这样我就可以用适当的大小初始化hashmap。
我用过麻将的 seqdumper 它在每个转储向量的末尾附加一个计数。我查看了它的代码，但是它使用了一个简单的迭代计数器（对于每一行） counter++ )所以这不是我要找的。
也 SequenceFile.MetaData 看起来很有前途，所以我调查了一下。但是调试器显示它不包含任何条目。
有没有其他方法可以快速得到像 .size() sequencefile中hadoop向量的方法？
编辑：这里是seqdumper的输出，我正在把它变成一张Map。具体来说，每个键值对都是一个intwritable/namedvector对。我希望创建一个从键号到uri字符串的Map。总共有46599个键值对，由 seqdumper 在文件的末尾。

Input Path: luceneVectors
Key class: class org.apache.hadoop.io.IntWritable Value Class: class org.apache.mahout.math.VectorWritable
Key: 0: Value: http://data.artsholland.com/production/73adae07-78c6-4180-93a4-34802090b5f1:{22118:0.18376858424635545,20381:0.40144184831236357,53753:0.2605347739121081,51569:0.2578896608715637,21930:0.2277873354603338,63035:0.27765920678967304,36979:0.2709104089668357,68351:0.15788776111071648,19436:0.2988119565549418,17991:0.12435264873296237,10356:0.3276902508762499,3410:0.27239123806574506,62942:0.18961849195965186,32527:0.24827631823639457,69909:0.11723303910369048,19832:0.2138117449778048}
Key: 1: Value: http://data.artsholland.com/production/c9fcc92b-18bb-4bfb-af52-380707f8d0d7:{41167:0.07191351238480857,61391:0.07496730342220936,[...]
[...],19156:0.0687215948604245}
Count: 46599

Java hadoop sequencefile size mahout

来源：https://stackoverflow.com/questions/12817252/hadoop-sequencefile-size

1条答案

按热度按时间

6mw9ycah1#

不确定，我的答案是否有用，但是如果您需要知道seq文件中有多少个键，可以使用mapfile而不是sequencefile。了解indexinterval可以通过读取密钥文件来估计密钥数。如果将indexinterval设置得相对较大，则可以保持较小的索引文件，并且仍然可以估计键的数量。作为额外的奖励，你可以得到你的钥匙取样，这可以帮助你进一步优化。
有关SequenceFile不同版本的更多详细信息，请参见此处http://www.cloudera.com/blog/2011/01/hadoop-io-sequence-map-set-array-bloommap-files/

赞(0）回复(0）举报 2021-06-03

我来回答

hadoop sequencefile大小

1条答案

相关问题

热门标签

最新问答