如何在hadoop流中分发Mapreduce任务

vltsax25  于 2022-11-01  发布在  Hadoop
关注(0)|答案(1)|浏览(120)

例如,我有多行日志文件,我有mapper.py。这个脚本解析文件。在这种情况下,我想独立地进行Map

hi3rlvi2

hi3rlvi21#

Hadoop Streaming已经是“分布式”的,但是被隔离到一个输入和输出流中。您需要编写一个脚本来循环文件,并为每个文件运行单独的流作业。
如果您希望批处理多个文件,那么您应该将所有文件上传到一个HDFS文件夹中,然后您可以使用mrjob(假设您确实需要MapReduce),或者您可以切换到pyspark来并行处理所有文件,因为我认为没有必要按顺序执行这些操作。

相关问题