具有流的hadoop全局变量

yrdbyhpb  于 2021-06-02  发布在  Hadoop
关注(0)|答案(1)|浏览(435)

我知道我可以通过作业和配置给我的Map器一些全局值。
但是如何使用hadoop流媒体(在我的例子中是python)来做到这一点呢?
正确的方法是什么?

odopli94

odopli941#

根据文档,您可以指定命令行选项( -cmdenv name=value )要在每个分布式计算机上设置环境变量,然后可以在Map器/还原器中使用这些变量,请执行以下操作:

$HADOOP_HOME/bin/hadoop  jar $HADOOP_HOME/hadoop-streaming.jar \
    -input input.txt \
    -output output.txt \
    -mapper mapper.py \
    -reducer reducer.py \
    -file mapper.py \
    -file reducer.py \
    -cmdenv MY_PARAM=thing_I_need

相关问题