对图像(或blob)使用combinefileinputformat?

6za6bjd0  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(289)

我正在计划一个hdfs系统,它将为数字存储库(fedora commons)托管图像文件(几mb到200mb)。我在另一篇stackoverflow文章中发现,combinefileinputformat可以用来创建由多个输入文件组成的输入拆分。这种方法可以用于图像或pdf吗?在map任务中,我希望处理单个文件的整体,即分别处理输入分割中的每个图像。
我知道小文件的问题,这将不是我的案件的问题。
我想使用combinefileinputformat,以避免Map器任务设置/清理开销和数据局部性保留。

q9rjltbz

q9rjltbz1#

如果你想在hadoop中处理图像,我只能推荐使用hipi,它应该允许你做你需要的事情。
否则,当你说你想完整地处理单个文件时,我不认为你可以用传统的输入格式来处理,因为即使使用 CombineFileInputFormat ,则无法保证分割中的内容正好是一个图像。
您还可以考虑的一种方法是输入一个包含图像的url/位置的文件(例如,您可以将它们放在amazons3中),并确保您拥有与图像一样多的Map器,然后每个Map任务将能够处理单个图像。不久前我也做过类似的事情,效果还不错。

相关问题