使用pyspark读取并处理*.tar.gz文件

d5vmydt9 于 2021-06-01 发布在 Hadoop

关注(0)|答案(0)|浏览(301)

假设我有一个tar.gz档案，里面有7个csv文件。如何操作这样一个tar.gz归档文件，以在单独的rdd或Dataframe中获取每个csv文件。
我已经尝试过这里提到的可能性，但是我在一个rdd中获得了所有的7个csv文件，这和做一个简单的 sc.textFile() .
我用的是spark 2*

hadoop apache-spark pyspark tar GZIP

来源：https://stackoverflow.com/questions/52404992/read-and-process-a-tar-gz-file-with-pyspark

暂无答案！

目前还没有任何答案，快来回答吧！

相关问题

微信公众号

热门标签

Java query python Node 开发语言 request Util 数据库 Table 后端算法 Logger Message Element Parser

最新问答

Python pillow/PIL无法识别对象“imagedraw”的属性“textsize”
回答(3) 发布于 5个月前
python-3.x ImportError：无法从“typing_extensions”导入名称“deprecated”
回答(2) 发布于 5个月前
python-3.x 我正尝试使用密码学对字典进行加密
回答(1) 发布于 5个月前
在Python的IDLE中导入audiolazy的问题
回答(1) 发布于 5个月前
如何将Python程序中的数据添加到Markdown？
回答(2) 发布于 5个月前