为什么我的兽人与snappy压缩文件比原来的文件大?

bt1cpqcv  于 2021-06-26  发布在  Hive
关注(0)|答案(0)|浏览(477)

我用gzip压缩文件设置了第一个配置单元表:

CREATE EXTERNAL TABLE table_gzip (
    col1,
    col2,
    col3
)
ROW FORMAT DELIMITED,
  FIELDS TERMINATED BY ','
  LINES TERMINATED BY '\n'
LOCATION
  's3://bucket/files_gzip/';

然后我用orc格式设置了另一个配置单元表:

CREATE EXTERNAL TABLE table_orc (
    col1,
    col2,
    col3
)
STORED AS ORC
LOCATION
   's3://bucket/files_orc/';
ALTER TABLE table_orc SET tblproperties ("orc.compress" ="SNAPPY");

然后我使用以下查询从gzip解压并重新压缩到orc:

INSERT OVERWRITE TABLE table_gzip SELECT * FROM table_orc

这个查询完成后,我在“s3://bucket/files\u orc/”中有了新的orc压缩文件。到现在为止,一直都还不错。
但是,当我查看这些文件时,它们从500个1.2gib文件变成了500个1.6gib文件。
我做错了什么?为什么我的orc snappy压缩文件比原始文件大?gzip是一种更好的压缩方法吗?
谢谢你的时间。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题