在java中,我将使用:multipleinputs.addinputpath(conf,path,inputformatclass,mapperclass)使用不同的Map器添加多个输入。现在我正在用python在hadoop中编写一个流式作业,可以完成类似的作业吗?
tpxzln5u1#
可以使用多输入选项指定多个输入路径:
hadoop jar hadoop-streaming.jar -input foo.txt -input bar.txt ...
0md85ypi2#
我想这可以帮助你:https://github.com/hyonaldo/hadoop-multiple-streaming.在这里您还可以看到“这些不同输入路径的不同Map器”:
hadoop jar hadoop-multiple-streaming.jar \ -input myInputDirs \ -multiple "outputDir1|mypackage.Mapper1|mypackage.Reducer1" \ -multiple "outputDir2|mapper2.sh|reducer2.sh" \ -multiple "outputDir3|mapper3.py|reducer3.py" \ -multiple "outputDir4|/bin/cat|/bin/wc" \ -libjars "libDir/mypackage.jar" \ -file "libDir/mapper2.sh" \ -file "libDir/mapper3.py" \ -file "libDir/reducer2.sh" \ -file "libDir/reducer3.py"
2条答案
按热度按时间tpxzln5u1#
可以使用多输入选项指定多个输入路径:
0md85ypi2#
我想这可以帮助你:https://github.com/hyonaldo/hadoop-multiple-streaming.
在这里您还可以看到“这些不同输入路径的不同Map器”: