如何使用spark(python)读取zip文件中csv文件的内容

vm0i2vca 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(787)

这个问题在这里已经有答案了：

从spark中的压缩读取全文文件（2个答案）
两年前关门了。
我有多个zip文件，其中包含两种类型的文件（a.csv和b.csv）
/data/jan.zip-->包含a.csv和b.csv
/data/feb.zip-->包含a.csv和b.csv
我想使用pyspark读取所有zip文件中所有a.csv文件的内容。

textFile = sc.textFile("hdfs://<HDFS loc>/data/*.zip")

有人能告诉我如何将.csv文件的内容放入rdd吗？

hadoop python apache-spark pyspark zip

来源：https://stackoverflow.com/questions/37060891/how-to-read-contents-of-a-csv-file-inside-zip-file-using-spark-python

1条答案

按热度按时间

a11xaf1n1#

在这里，您希望递归地读取zip文件中的所有csv文件。

val files = sc.CSVFiles("file://path/to/files/*.zip")
files.flatMap({case (name, content) =>
  unzip(content)
})

def unzip(content: String): List[String] = {
  ...
}

赞(0）回复(0）举报 2021-05-29

我来回答

如何使用spark(python)读取zip文件中csv文件的内容

1条答案

相关问题

热门标签

最新问答