使用pyspark,我从json文件中提取1500个字段,并保存为parquet并创建配置单元外部表。从json提取的所有字段都是字符串格式。在配置单元ddl中,所有列名都应为整数。当我保存为parquet并查询配置单元表时,我看到以下错误:
java.io.ioexception:org.apache.hadoop.hive.ql.metadata.hiveexception:java.lang.classcastexception
有办法处理这个错误吗?
在保存为parquet之前将列转换为int会有所帮助。但是将1500列显式转换为整数是不可能的。
1条答案
按热度按时间aoyhnmkz1#
我知道一种更广泛的方法,如下所示: