如何使用hadoop处理跨数据输入文件任务？

vmpqdwk3 于 2021-06-04 发布在 Hadoop

关注(0)|答案(1)|浏览(356)

使用hadoop处理一些数据，比如日志文件，是非常有用的。因为，理论上，我们可以将数据文件分割成一些块，每个节点可以处理这个单独的块来生成k-v对，然后传递给Map器和缩减器。但是，如果我们的任务的输入数据文件更复杂，这意味着我们不分割或每个计算节点，但需要整个输入数据，我们怎么做呢？
例如
我们要计算每两个向量的距离。在输入文件中，每行表示一个向量。这个问题肯定可以是一个并行过程，因为每个节点都可以计算一个向量和所有其他向量的距离。但是我们如何使用hadoop框架来处理这个问题呢？换言之，如何将这个输入数据文件分割成某个块，这样我们就可以从每个块中产生一些关键字值，然后将它们传递给mapper和reducer？

Java hadoop hdfs

来源：https://stackoverflow.com/questions/20613581/how-to-use-hadoop-deal-with-cross-data-input-file-tasks