hdfs命令输出的处理结果

jpfvwuh4 于 2021-05-30 发布在 Hadoop

关注(0)|答案(1)|浏览(344)

这可能是一个关于流处理的问题。但我无法找到一个优雅的解决方案使用awk。我正在运行一个m/r作业，计划每天运行一次。但它可能需要在多个hdfs目录上运行。例如，当天有3个输入目录上载到hdfs，因此需要运行3个m/r作业，每个目录对应一个。
所以我需要一个解决方案，我可以从以下结果中提取文件名：

hdfs dfs -ls /user/xxx/17-03-15*

然后迭代文件名，为每个文件启动一个m/r作业。
谢谢

1条答案

浏览更多关于这个问题的内容，我发现hadoop提供了一个针对这个问题的配置设置。以下是详细信息。
另外，我只是有一些语法问题，这个简单的awk命令做了我想要的：

files=`hdfs dfs -ls /user/hduser/17-03-15* | awk {'print $8'}`