使用hadoop流处理未受干扰的二进制数据

mnowg1ta 于 2021-06-04 发布在 Hadoop

关注(0)|答案(0)|浏览(156)

我正在尝试制作一个脚本，使用hadoop流式map-only作业将hdfs文件通过unix过滤器传输。我不在乎输入分割，反正我的文件都是压缩的。我不关心键/值对，我花了很长时间摆脱hadoop想要粘在我输出中的标签。我更喜欢简单的原始二进制数据输入和输出，但我可以接受utf-8文本或类似的行。
我尝试了不同的设置 mapreduce.output.textoutputformat.separator 以及 stream.map.output.field.separator ，使用typedbytes等。标签不会消失。有什么想法吗？
我使用cdh4.1与Yarn（mrv2）如果这有区别。

hadoop hadoop-streaming

来源：https://stackoverflow.com/questions/14732305/using-hadoop-streaming-with-unmolested-binary-data