电容器格式的bigquery大小比hadoop(orc)中的大得多

fafcakar  于 2021-06-01  发布在  Hadoop
关注(0)|答案(0)|浏览(195)

在我第一次使用bigquery进行测试的过程中,我注意到bigquery中导入的表的大小比hadoop中的原始表示要大得多。
以下是我得到的数字:
orc原始hadoop表:2gb
avro压缩表示法将数据加载到bigquery:6.4 gb
(测试:avro未压缩:45.8 gb)
bigquery大小(电容器格式):47.1 gb
这个表有1100万行,366列(其中大部分是“字符串”)。
这是bigquery的正常行为吗?我认为电容器优化数据的方式非常有效。
有没有办法在bigquery中查看我的数据的内部结构,以了解哪里出了问题,以及是什么导致生成如此多的空间?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题