hive外部表到带有二进制列的parquet

k0pti3hp  于 2021-07-13  发布在  Spark
关注(0)|答案(1)|浏览(368)

我有一个Parquet地板与模式的数据文件;
id整数
模型二进制
该文件是使用pyspark和组模型标识符创建的,并使用pickle python库模型二进制文件转储。
是否可以为此Parquet文件创建配置单元外部表,并在select命令后获取输出。假设配置单元外部表具有完全相同的模式。

CREATE EXTERNAL TABLE default.t_model
(
id integer
, model binary
)
STORED AS PARQUET
LOCATION 'hdfs_path';

我已经做了上面的每一步,但总是得到空的答案集。我应该使用配置单元自定义项来加载二进制列吗?或者我应该为parquet二进制列数组尝试另一种数据类型吗?
谢谢你的回答,谢谢。

m0rkklqb

m0rkklqb1#

看起来我不应该在没有msck repair table命令的情况下使用分区表。对于配置单元二进制数据类型,一切正常。

相关问题