为什么在读取Parquet文件时会出现“is not a parquet file”错误

nr9pn0ug  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(2085)

从hdfs读取Parquet文件时发生以下错误

2020-06-04 14:11:23 WARN  TaskSetManager:66 - Lost task 44.0 in stage 1.0 (TID 3514, 192.168.16.41, executor 1): java.lang.RuntimeException: hdfs://data-hadoop-hdfs-nn.hadoop:8020/somedata/serviceName=someService/masterAccount=ma/siteAccount=sa/systemCode=111/part-00170-7ff5ac19-98b7-4a5a-b93d-9e988dff07eb.c000.snappy.parquet is not a Parquet file. expected magic number at tail [80, 65, 82, 49] but found [55, 49, 98, 48]

我在网上发现了类似的问题,但大多数人都试图阅读其他文件类型而不是Parquet地板。我100%确信这个文件是用Parquet格式写的,这可以在日志中看到。文件名为part-00170-7ff5ac19-98b7-4a5a-b93d-9e988dff07eb.c000.snappy.parquet。
只有一个作业正在写入这个somdata文件夹,而这个作业正在写入parquet(spark structured streaming job),结尾还说它是一个parquet文件。由同一作业编写的其他Parquet文件不会抛出此错误

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题