如何从python脚本访问hdfs中的目录?

fgw7neuy  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(216)

我有一个python脚本,它遍历目录中的所有文件并打印元数据,如文件名、扩展名、大小、创建时间等。
问题是,我想传递一个位于hdfs中的目录作为输入。我不知道该怎么做。
我试过很多东西,比如hdfs3,pywebhdfs,snakebite等等。但这些扩展主要提供基本的hdfs命令,我不知道如何访问hdfs中的文件夹。

for root, dirs, files in os.walk(MyDirectory):
    for file in files:
        if file.endswith(MyExtension):
            #get File Name
            a = (os.path.join(root, file))
            #print a
            filename = a
            MyFileName = basename(a)

            #get File Size
            MyFileSize = getSize(filename) / 1000
            print MyFileName + " >>> file size: " + str(MyFileSize) + "Kb"

在os.walk(mydirectory)中,应该是hdfs中目录的位置,在我的示例中:hdfs://quickstar.cloudera:8020/user/cloudera/目录

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题