如何在spark2.0上的pyspark中加载gzip压缩csv文件?我知道未压缩的csv文件可以按如下方式加载:
spark.read.format("csv").option("header", "true").load("myfile.csv")
或者
spark.read.option("header", "true").csv("myfile.csv")
wmvff8tz1#
我刚刚发现,以下内容适用于gzip csv文件:
mm9b1k5b2#
你可以用 spark.sparkContext.textFile("file.gz") 文件扩展名应为 .gz
spark.sparkContext.textFile("file.gz")
.gz
2条答案
按热度按时间wmvff8tz1#
我刚刚发现,以下内容适用于gzip csv文件:
mm9b1k5b2#
你可以用
spark.sparkContext.textFile("file.gz")
文件扩展名应为.gz