我正在尝试制作一个脚本,使用hadoop流式map-only作业将hdfs文件通过unix过滤器传输。我不在乎输入分割,反正我的文件都是压缩的。我不关心键/值对,我花了很长时间摆脱hadoop想要粘在我输出中的标签。我更喜欢简单的原始二进制数据输入和输出,但我可以接受utf-8文本或类似的行。
我尝试了不同的设置 mapreduce.output.textoutputformat.separator
以及 stream.map.output.field.separator
,使用typedbytes等。标签不会消失。有什么想法吗?
我使用cdh4.1与Yarn(mrv2)如果这有区别。
暂无答案!
目前还没有任何答案,快来回答吧!