ApacheSpark—是否可以在hdfs上解压tar.gz文件并将其放在不同的hdfs文件夹中,而不将其带到本地系统

egdjgwm8  于 2021-05-27  发布在  Hadoop
关注(0)|答案(1)|浏览(529)

我有employee_mumbai.tar.gz文件在这里面,我有name.json和salary.json。而tar.gz存在于hdfs位置。是否可以解压gzip文件并将json文件放在hfds文件夹中,而无需将其带到本地文件系统。n、 b:请记住它不是一个文本文件,而且都是json文件的唯一信息。
请让我知道,如果它可以实现读取这两个文件分别在不同的Dataframe直接在Spark。

cczfrluj

cczfrluj1#

这对我有用:

hdfs dfs -cat /data/<data.gz> | gzip -d | hdfs dfs -put - /data/

相关问题