为什么用amazon athena复制时Parquet文件的大小会变小

qij5mzcb 于 2021-06-24 发布在 Hive

关注(0)|答案(1)|浏览(293)

我有一个由hive填充的hive分区表，并作为parquet存储在s3上。特定分区的数据大小为3gb。然后我和雅典娜做了一个副本：

CREATE TABLE tmp_partition
AS SELECT *
FROM original_table
where hour=11

结果数据大小小于一半（1.4gb）。原因是什么？
编辑：相关配置单元表定义语句：

ROW FORMAT SERDE 
  'org.apache.hadoop.hive.ql.io.parquet.serde.ParquetHiveSerDe' 
STORED AS INPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetInputFormat' 
OUTPUTFORMAT 
  'org.apache.hadoop.hive.ql.io.parquet.MapredParquetOutputFormat'
LOCATION
  's3://...'
TBLPROPERTIES (
  'parquet.compress'='SNAPPY', 
  'transient_lastDdlTime'='1558011438'
)

Hive parquet amazon-s3 amazon-web-services amazon-athena

来源：https://stackoverflow.com/questions/56171446/why-does-parquet-file-size-get-smaller-when-copied-with-amazon-athena