格式错误的orc文件错误

uqxowvwt  于 2021-06-04  发布在  Hadoop
关注(0)|答案(2)|浏览(347)

在将配置单元外部表从rc升级为orc格式并在其上运行msck repair table(当我从表中选择all时),我得到以下错误-

Failed with exception java.io.IOException:java.io.IOException: Malformed ORC file hdfs://myServer:port/my_table/prtn_date=yyyymm/part-m-00000__xxxxxxxxxxxxx Invalid postscript length 1

将rc格式的历史数据迁移到orc格式的同一个表的新定义(如果有)需要遵循什么过程?

xmakbtuz

xmakbtuz1#

块引用
添加行格式、输入格式和输出格式,解决create语句中的问题:
创建外部表xyz(a字符串,b字符串),由(c字符串)分区
行格式serde'org.apache.hadoop.hive.serde2.lazy.lazysimpleserde'存储为inputformat'org.apache.hadoop.mapred.sequencefileinputformat'outputformat'org.apache.hadoop.hive.ql.io.hivesequencefileoutputformat'
位置“hdfs路径”;

46scxncf

46scxncf2#

添加分区时,配置单元不会自动重新格式化数据。您有两个选择:
将旧分区保留为rc文件,并将新分区设为orc。
将数据移动到暂存表,并使用insert overwrite将数据重新写入orc文件。

相关问题