在hadoop上的一个流作业中使用多个Map器输入？

93ze6v8z 于 2021-06-03 发布在 Hadoop

关注(0)|答案(2)|浏览(400)

在java中，我将使用：
multipleinputs.addinputpath（conf，path，inputformatclass，mapperclass）
使用不同的Map器添加多个输入。
现在我正在用python在hadoop中编写一个流式作业，可以完成类似的作业吗？

hadoop streaming python

来源：https://stackoverflow.com/questions/12180791/using-multiple-mapper-inputs-in-one-streaming-job-on-hadoop

2条答案

按热度按时间

tpxzln5u1#

可以使用多输入选项指定多个输入路径：

hadoop jar hadoop-streaming.jar -input foo.txt -input bar.txt ...

赞(0）回复(0）举报 2021-06-03

0md85ypi2#

我想这可以帮助你：https://github.com/hyonaldo/hadoop-multiple-streaming.
在这里您还可以看到“这些不同输入路径的不同Map器”：

hadoop jar hadoop-multiple-streaming.jar \  
  -input    myInputDirs \  
  -multiple "outputDir1|mypackage.Mapper1|mypackage.Reducer1" \  
  -multiple "outputDir2|mapper2.sh|reducer2.sh" \  
  -multiple "outputDir3|mapper3.py|reducer3.py" \  
  -multiple "outputDir4|/bin/cat|/bin/wc" \  
  -libjars  "libDir/mypackage.jar" \
  -file     "libDir/mapper2.sh" \  
  -file     "libDir/mapper3.py" \  
  -file     "libDir/reducer2.sh" \  
  -file     "libDir/reducer3.py"

赞(0）回复(0）举报 2021-06-03

我来回答

在hadoop上的一个流作业中使用多个Map器输入？

2条答案

相关问题

热门标签

最新问答