spark只读取具有“gzip”内容编码的部分gzip文件如何使spark读取整个文件?

7jmck4yq  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(303)

我正在使用spark.read.text(“gs://../xyz.txt”)从gcs bucket读取gzip文件。我将内容编码设置为“gzip”,并在gcs中将文件扩展名重命名为txt。通过将内容编码设置为“gzip”,它被下载为文本格式而不是gzip格式。spark也能够以文本格式读取它,但是它只读取部分文件,读取到gzip文件的大小,而忽略文件的其余部分。
例如,如果gzip文件的压缩大小是2gb,而未压缩大小是5gb。spark只读取2gb文件,忽略3gb的其余部分。有没有必要告诉spark把整个文件都读一遍?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题