传递多个文件的文件选项

vbkedwbf  于 2021-06-03  发布在  Hadoop
关注(0)|答案(1)|浏览(187)

我需要传递多个文件到hadoop流作业。根据doc,-file选项也将目录作为输入。然而,它似乎不起作用。reducer抛出一个“找不到文件”错误。其他选项是使用-file选项分别传递每个文件,考虑到我有100个文件,这不是很理想。另一个选择是压缩文件并将其作为tarball传递,然后在reducer中解压
还有更好的选择吗?
理想情况下,我只想将目录作为值传递给-file参数,因为hadoop文档建议-file也接受一个目录

flmtquvp

flmtquvp1#

你确定你的意思是减速机抛出一个文件找不到的错误?这听起来更像是一个问题,如果是reducer抛出错误,那么用户就无法读取results文件夹。
-文件肯定与一个目录一起工作,我有一个hadoop流式处理作业,它接受一个目录并针对文件夹中的6个文件运行。
请记住,为-file命令提供的路径是hdfs中的路径,因此请使用ls命令确保路径正确。
最后,确保您有权与您正在使用的用户一起读取目录并运行作业。虽然我不知道如果您没有权限,您会得到什么错误,但可能是“找不到文件”错误。

相关问题