我正在使用spark.read.text(“gs://../xyz.txt”)从gcs bucket读取gzip文件。我将内容编码设置为“gzip”,并在gcs中将文件扩展名重命名为txt。通过将内容编码设置为“gzip”,它被下载为文本格式而不是gzip格式。spark也能够以文本格式读取它,但是它只读取部分文件,读取到gzip文件的大小,而忽略文件的其余部分。
例如,如果gzip文件的压缩大小是2gb,而未压缩大小是5gb。spark只读取2gb文件,忽略3gb的其余部分。有没有必要告诉spark把整个文件都读一遍?
暂无答案!
目前还没有任何答案,快来回答吧!