配置单元:将hdfs中的gziped csv以只读方式加载到表中

eulz3vhy  于 2021-06-26  发布在  Hive
关注(0)|答案(1)|浏览(285)

我有一个hdfs文件夹,里面有许多csv.gz,都使用相同的模式。我的客户需要通过hive读取这些表的内容。
我试着申请https://cwiki.apache.org/confluence/display/hive/compressedstorage . 然而,它移动文件,而我需要它留在其初始目录。
另一个问题是,我应该逐个加载每个文件,我宁愿从目录创建一个表,而不是单独管理文件。
我一点也不精通Hive。他有可能吗?

eqfvzcg8

eqfvzcg81#

是的,这可以通过 Hive . 您可以创建一个外部表并引用现有的 HDFS 包含 gzip 文件夹。应在表创建期间指定数据的架构。

hive> CREATE EXTERNAL TABLE my_data 
      (
        column_1 int,
        column_2 string
      )
      LOCATION 'hdfs:///my_data_folder_with_gzip_files';

相关问题