如何在hadoop流中分发Mapreduce任务

vltsax25 于 2022-11-01 发布在 Hadoop

关注(0)|答案(1)|浏览(120)

例如，我有多行日志文件，我有mapper.py。这个脚本解析文件。在这种情况下，我想独立地进行Map

hadoop

来源：https://stackoverflow.com/questions/71217146/how-to-distribute-mapreduce-task-in-hadoop-streaming

1条答案

按热度按时间

hi3rlvi21#

Hadoop Streaming已经是“分布式”的，但是被隔离到一个输入和输出流中。您需要编写一个脚本来循环文件，并为每个文件运行单独的流作业。
如果您希望批处理多个文件，那么您应该将所有文件上传到一个HDFS文件夹中，然后您可以使用mrjob（假设您确实需要MapReduce），或者您可以切换到pyspark来并行处理所有文件，因为我认为没有必要按顺序执行这些操作。

赞(0）回复(0）举报 2022-11-01

我来回答

如何在hadoop流中分发Mapreduce任务

1条答案

相关问题

热门标签

最新问答