电容器格式的bigquery大小比hadoop(orc)中的大得多

fafcakar 于 2021-06-01 发布在 Hadoop

关注(0)|答案(0)|浏览(195)

在我第一次使用bigquery进行测试的过程中，我注意到bigquery中导入的表的大小比hadoop中的原始表示要大得多。
以下是我得到的数字：
orc原始hadoop表：2gb
avro压缩表示法将数据加载到bigquery:6.4 gb
（测试：avro未压缩：45.8 gb）
bigquery大小（电容器格式）：47.1 gb
这个表有1100万行，366列（其中大部分是“字符串”）。
这是bigquery的正常行为吗？我认为电容器优化数据的方式非常有效。
有没有办法在bigquery中查看我的数据的内部结构，以了解哪里出了问题，以及是什么导致生成如此多的空间？

hadoop google-bigquery

来源：https://stackoverflow.com/questions/44238914/bigquery-size-of-capacitor-format-much-bigger-than-in-hadoop-orc