使用zip输入文件的hadoop流媒体

hmae6n7t  于 2021-06-03  发布在  Hadoop
关注(0)|答案(2)|浏览(319)

我正在尝试运行一个流式处理作业,其中输入文件是zip文件中的csv文件。我试过使用它,但是它似乎不适合与cdh4一起工作(我得到了错误信息) class com.cotdp.hadoop.ZipFileInputFormat not org.apache.hadoop.mapred.InputFormat )
有人知道我可以用输入文件阅读器来处理zip文件流吗?如果可能的话,我正在寻找一个多文件读取器(可以提供顶级目录)。

baubqpgj

baubqpgj1#

输入格式有两个hadoopapi。mapred.inputformat和mapreduce.inputformat。
mapreduce是较新的api,如果可以的话,应该使用它。
我会检查zipinputformat实际实现了哪些inputformat。如果它实现了mapreduce版本,则需要将作业移到第二个api。
有一点背景知识:在早期的hadoop版本中,“mapred”被贬低了,取而代之的是“mapreduce”,一种更新、更快、更干净的实现。不幸的是,这个新api没有包含旧api的所有特性,因此在hadoop的较新版本中,“mapred”被恢复,现在有两个api基本上做相同的事情。

3df52oht

3df52oht2#

最后我写了zipstream。
请注意,这只是zip中的第一个文件,稍后我可能会添加对多个文件的支持。

相关问题