在spark2.0中加载压缩的gzip csv文件

tct7dpnv  于 2021-07-14  发布在  Spark
关注(0)|答案(2)|浏览(283)

如何在spark2.0上的pyspark中加载gzip压缩csv文件?
我知道未压缩的csv文件可以按如下方式加载:

spark.read.format("csv").option("header",          
                                "true").load("myfile.csv")

或者

spark.read.option("header", "true").csv("myfile.csv")
wmvff8tz

wmvff8tz1#

我刚刚发现,以下内容适用于gzip csv文件:

spark.read.option("header", "true").csv("myfile.csv")
mm9b1k5b

mm9b1k5b2#

你可以用 spark.sparkContext.textFile("file.gz") 文件扩展名应为 .gz

相关问题