使用hadoop流处理未受干扰的二进制数据

mnowg1ta  于 2021-06-04  发布在  Hadoop
关注(0)|答案(0)|浏览(156)

我正在尝试制作一个脚本,使用hadoop流式map-only作业将hdfs文件通过unix过滤器传输。我不在乎输入分割,反正我的文件都是压缩的。我不关心键/值对,我花了很长时间摆脱hadoop想要粘在我输出中的标签。我更喜欢简单的原始二进制数据输入和输出,但我可以接受utf-8文本或类似的行。
我尝试了不同的设置 mapreduce.output.textoutputformat.separator 以及 stream.map.output.field.separator ,使用typedbytes等。标签不会消失。有什么想法吗?
我使用cdh4.1与Yarn(mrv2)如果这有区别。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题