这个问题在这里已经有答案了:
从spark中的压缩读取全文文件(2个答案)
两年前关门了。
我有多个zip文件,其中包含两种类型的文件(a.csv和b.csv)
/data/jan.zip-->包含a.csv和b.csv
/data/feb.zip-->包含a.csv和b.csv
我想使用pyspark读取所有zip文件中所有a.csv文件的内容。
textFile = sc.textFile("hdfs://<HDFS loc>/data/*.zip")
有人能告诉我如何将.csv文件的内容放入rdd吗?
1条答案
按热度按时间a11xaf1n1#
在这里,您希望递归地读取zip文件中的所有csv文件。