如何使用hadoop处理跨数据输入文件任务?

vmpqdwk3  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(356)

使用hadoop处理一些数据,比如日志文件,是非常有用的。因为,理论上,我们可以将数据文件分割成一些块,每个节点可以处理这个单独的块来生成k-v对,然后传递给Map器和缩减器。但是,如果我们的任务的输入数据文件更复杂,这意味着我们不分割或每个计算节点,但需要整个输入数据,我们怎么做呢?
例如
我们要计算每两个向量的距离。在输入文件中,每行表示一个向量。这个问题肯定可以是一个并行过程,因为每个节点都可以计算一个向量和所有其他向量的距离。但是我们如何使用hadoop框架来处理这个问题呢?换言之,如何将这个输入数据文件分割成某个块,这样我们就可以从每个块中产生一些关键字值,然后将它们传递给mapper和reducer?

cetgtptt

cetgtptt1#

如果您想在hadoop中处理图形数据,请查看apachegiraph或titan(基于hbase构建)

相关问题