例如,我有多行日志文件,我有mapper.py。这个脚本解析文件。在这种情况下,我想独立地进行Map
hi3rlvi21#
Hadoop Streaming已经是“分布式”的,但是被隔离到一个输入和输出流中。您需要编写一个脚本来循环文件,并为每个文件运行单独的流作业。如果您希望批处理多个文件,那么您应该将所有文件上传到一个HDFS文件夹中,然后您可以使用mrjob(假设您确实需要MapReduce),或者您可以切换到pyspark来并行处理所有文件,因为我认为没有必要按顺序执行这些操作。
mrjob
pyspark
1条答案
按热度按时间hi3rlvi21#
Hadoop Streaming已经是“分布式”的,但是被隔离到一个输入和输出流中。您需要编写一个脚本来循环文件,并为每个文件运行单独的流作业。
如果您希望批处理多个文件,那么您应该将所有文件上传到一个HDFS文件夹中,然后您可以使用
mrjob
(假设您确实需要MapReduce),或者您可以切换到pyspark
来并行处理所有文件,因为我认为没有必要按顺序执行这些操作。