spark只读取具有“gzip”内容编码的部分gzip文件如何使spark读取整个文件？

7jmck4yq 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(303)

我正在使用spark.read.text（“gs://../xyz.txt”）从gcs bucket读取gzip文件。我将内容编码设置为“gzip”，并在gcs中将文件扩展名重命名为txt。通过将内容编码设置为“gzip”，它被下载为文本格式而不是gzip格式。spark也能够以文本格式读取它，但是它只读取部分文件，读取到gzip文件的大小，而忽略文件的其余部分。
例如，如果gzip文件的压缩大小是2gb，而未压缩大小是5gb。spark只读取2gb文件，忽略3gb的其余部分。有没有必要告诉spark把整个文件都读一遍？

apache-spark GZIP content-encoding

来源：https://stackoverflow.com/questions/62877010/spark-reads-only-partial-gzip-file-that-has-gzip-content-encoding-how-to-make