我有一个python脚本,它遍历目录中的所有文件并打印元数据,如文件名、扩展名、大小、创建时间等。
问题是,我想传递一个位于hdfs中的目录作为输入。我不知道该怎么做。
我试过很多东西,比如hdfs3,pywebhdfs,snakebite等等。但这些扩展主要提供基本的hdfs命令,我不知道如何访问hdfs中的文件夹。
for root, dirs, files in os.walk(MyDirectory):
for file in files:
if file.endswith(MyExtension):
#get File Name
a = (os.path.join(root, file))
#print a
filename = a
MyFileName = basename(a)
#get File Size
MyFileSize = getSize(filename) / 1000
print MyFileName + " >>> file size: " + str(MyFileSize) + "Kb"
在os.walk(mydirectory)中,应该是hdfs中目录的位置,在我的示例中:hdfs://quickstar.cloudera:8020/user/cloudera/目录
暂无答案!
目前还没有任何答案,快来回答吧!