hdfs命令输出的处理结果

jpfvwuh4  于 2021-05-30  发布在  Hadoop
关注(0)|答案(1)|浏览(344)

这可能是一个关于流处理的问题。但我无法找到一个优雅的解决方案使用awk。我正在运行一个m/r作业,计划每天运行一次。但它可能需要在多个hdfs目录上运行。例如,当天有3个输入目录上载到hdfs,因此需要运行3个m/r作业,每个目录对应一个。
所以我需要一个解决方案,我可以从以下结果中提取文件名:

hdfs dfs -ls /user/xxx/17-03-15*

然后迭代文件名,为每个文件启动一个m/r作业。
谢谢

kmynzznz

kmynzznz1#

浏览更多关于这个问题的内容,我发现hadoop提供了一个针对这个问题的配置设置。以下是详细信息。
另外,我只是有一些语法问题,这个简单的awk命令做了我想要的:

files=`hdfs dfs -ls /user/hduser/17-03-15* | awk {'print $8'}`

相关问题