map-reduce处理数千个文件？

uhry853o 于 2021-05-27 发布在 Hadoop

关注(0)|答案(0)|浏览(278)

我有一个超过100TB的数据集。在这些数据集中可以有1000个文件。每个文件都有自己的格式。假设file1有d1、x1、x2列，file2有d2、x3、x4、x5列，依此类推。这些文件的大小从几kb到gb不等。我需要一个快速有效的算法来处理所有这些文件。我打算（需要）在以下阶段进行处理：
答。拆分原始文件并生成以下对的新文件：t1:（d1，x1）、t2:（d2，x2）、t3:（d2，x3）、t4:（d2，x4）、t5:（d2，x5），其中t1、t2、t3、t4、t5是新的中间文件，其中t1、t2由文件1生成，其余由文件2生成。
b。对于所有这些中间文件，运行并行作业（有点像mapper），进行logistic回归拟合，并按以下格式生成系数对：t1:（a1，b1，c1），t2:（a2，b2，c2）等等。
c。在最后阶段，reducer将根据logistic回归系数检查是否满足某个条件，并输出满足条件的名称。例如：如果满足我的条件，它应该输出：true:（t1，t2，t5），false:（t3，t4）*
我不确定这是否是使用mapper、reducer和hdfs的正确方法。这是我第一次使用hdfs进行数据处理。因此，任何帮助或Maven建议，这将真的非常感谢。

hadoop mapreduce python

来源：https://stackoverflow.com/questions/64431390/map-reduce-for-processing-thousands-of-files