如何使用spark(python)读取zip文件中csv文件的内容

vm0i2vca  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(787)

这个问题在这里已经有答案了

从spark中的压缩读取全文文件(2个答案)
两年前关门了。
我有多个zip文件,其中包含两种类型的文件(a.csv和b.csv)
/data/jan.zip-->包含a.csv和b.csv
/data/feb.zip-->包含a.csv和b.csv
我想使用pyspark读取所有zip文件中所有a.csv文件的内容。

textFile = sc.textFile("hdfs://<HDFS loc>/data/*.zip")

有人能告诉我如何将.csv文件的内容放入rdd吗?

a11xaf1n

a11xaf1n1#

在这里,您希望递归地读取zip文件中的所有csv文件。

val files = sc.CSVFiles("file://path/to/files/*.zip")
files.flatMap({case (name, content) =>
  unzip(content)
})

def unzip(content: String): List[String] = {
  ...
}

相关问题