hadoop流作业?

fd3cxomn  于 2021-06-04  发布在  Hadoop
关注(0)|答案(1)|浏览(296)

我想把一种格式的二进制文件转换成序列文件。
我有一个python脚本,它在stdin上采用这种格式,可以输出我想要的任何东西。
输入格式不是基于行的。单个记录本身是二进制的,因此输出格式不能用分隔符\t或分隔成\n行。
我可以使用hadoop流接口来使用二进制格式吗?如何生成二进制输出格式?
我假设答案是“不”,除非我听到别的。

lrl1mhuk

lrl1mhuk1#

您可以考虑使用nullwriteable作为输出,并直接在python脚本中生成sequencefile。您可以在github中查找hadooppython项目以查看候选代码:尽管它确实有点大/重,但它确实可以处理sequencefile生成。

相关问题