map-reduce处理数千个文件?

uhry853o  于 2021-05-27  发布在  Hadoop
关注(0)|答案(0)|浏览(278)

我有一个超过100TB的数据集。在这些数据集中可以有1000个文件。每个文件都有自己的格式。假设file1有d1、x1、x2列,file2有d2、x3、x4、x5列,依此类推。这些文件的大小从几kb到gb不等。我需要一个快速有效的算法来处理所有这些文件。我打算(需要)在以下阶段进行处理:
答。拆分原始文件并生成以下对的新文件:t1:(d1,x1)、t2:(d2,x2)、t3:(d2,x3)、t4:(d2,x4)、t5:(d2,x5),其中t1、t2、t3、t4、t5是新的中间文件,其中t1、t2由文件1生成,其余由文件2生成。
b。对于所有这些中间文件,运行并行作业(有点像mapper),进行logistic回归拟合,并按以下格式生成系数对:t1:(a1,b1,c1),t2:(a2,b2,c2)等等。
c。在最后阶段,reducer将根据logistic回归系数检查是否满足某个条件,并输出满足条件的名称。例如:如果满足我的条件,它应该输出:true:(t1,t2,t5),false:(t3,t4)*
我不确定这是否是使用mapper、reducer和hdfs的正确方法。这是我第一次使用hdfs进行数据处理。因此,任何帮助或Maven建议,这将真的非常感谢。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题