Python -如何运行Hadoop流传递命令行参数

ktca8awb 于 5个月前发布在 Hadoop

关注(0)|答案(1)|浏览(64)

我需要帮助完成一个学校的项目。
对于我所做的实验，我用python（版本3）编写了mapper和reducer脚本，我能够在那里运行hadoop流没有问题。然后我编辑脚本以处理两个不同格式的文件，我的脚本决定如何使用我传递到mapper.py脚本中的命令行参数格式化mapper数据。
命令行如下所示

python mapper.py abcd defg 1

字符串
每次我把它传递到hadoop流中，我总是得到“python文件不可读”。我想在这方面得到一些帮助！

hadoop

来源：https://stackoverflow.com/questions/77420706/python-how-to-run-hadoop-stream-passing-command-line-arguments

1条答案

按热度按时间

sczxawaw1#

将占位符替换为特定用例的实际值。以下是重要组件的细分：
path_to_streaming_jar：将其替换为Hadoop安装中的Hadoop Streaming SDK文件的实际路径。input_path：Hadoop作业的HDFS输入目录或文件。output_path：Hadoop作业结果的HDFS输出目录。mapper_script：mapper脚本或可执行文件的路径。reducer_script：reducer脚本或可执行文件的路径。：特定应用程序所需的任何其他命令行参数，例如-file、-cmdenv或特定于脚本的自定义参数。确保脚本可执行，并且在Hadoop集群的文件系统上可用，并且所需的输入数据存在于指定的输入目录中。
设置好所有组件后，您可以在终端上执行此命令。这将使用提供的Map器和reducer脚本以及任何其他参数沿着启动Hadoop Streaming作业。
如果您有特定的其他参数或更详细的用例，请提供更多信息以进一步帮助您。

赞(0）回复(0）举报 5个月前

我来回答

Python -如何运行Hadoop流传递命令行参数

1条答案

相关问题

热门标签

最新问答