我正在尝试处理一个hdfs文件,其中包含不可打印的字符。我想用mapreduce去掉这些字符。
我尝试过使用pig textloader和mr textinputformat(在mr程序中),结果是将一个记录从遇到不可打印字符的位置拆分为多个。以下是示例数据:
===数据==(2条记录)=
4614:2011-12-20-08.45.08.169176^2011-12-20-18.15.08.100008^597^0^57^ZUKA^Grase^^^Grase,Dr^^^N^N^N^Dr^KG^ONLY INFORMATION ENTERED^UNKNOWN^0 ^ ^^^611190362
�^0^^^^^^0^Grase,Dr^^^, ,^^^^^^597^^^<fnm>DR</fnm><lnm>GRASE</lnm>^^^^^^^^SINGLE^0^0
6063:2010-07-04-04.00.00.100001^2010-07-04-04.01.00.180144^017^0^095^WEETE ^Wien^^^Wien,Colock^^^N^N^N^Colock^KG^ONLY INFORMATION ENTERED^UNKNOWN^0 ^ ^295111915^^������9905^0^^^^^^0^Wien,Colock^40001 KIN RD^300 CAMORE ST^500 BLACK AVE^Woesfield, HA, 43723.^John Ball^^^25719110^617^������9905^^<fnm>COLOCK</fnm><lnm>WIEN</lnm>^^^^^^^^SINGLE^0^0
[在less编辑器中,具有特殊字符的列的第一条记录如下所示: 611190362^M<EF><BF><BD>
]
在vi或更少版本中,第一条记录出现在一行中,但在mr或pig中读取时,由于这些字符的存在,该记录被拆分。
我希望在从hdfs读取数据时避免记录分裂成新行,并进一步希望处理这些记录以除去这些特殊字符。
下面是我使用基本自定义项(下面的代码片段)所做的尝试。不过,程序正在剥离字符>0x80,但在拆分的记录上执行剥离。
任何帮助/指点都将不胜感激!!
/*
*
* Pig Code:
* register '/basepath/udf/DIF.jar'
rel1 = LOAD '/user/home/test' USING USING TextLoader();
rel2 = FOREACH rel1 GENERATE StripNonPrintable(s) as recordline;
dump rel2;
*
*/
//Imports
public class StripNonPrintable extends EvalFunc<String>
{
public String exec(Tuple input) throws IOException {
if (input == null || input.size() == 0)
return null;
try{
String s = new String();
s = (String)input.get(0);
//s = "2001-12-20-08.45.08.169176^2001-12-20-08.45.08.131408^597^0^57^ZUCKA^Grase^^^Grase,Dr^^^N^N^N^Dr^KG^ONLY INFORMATION ENTERED^UNKNOWN^0 ^ ^^^6785790362�^0^^^^^^0^Grase,Dr^^^, ,^^^^^^597^^^<fnm>DR</fnm><lnm>GRASE</lnm>^^^^^^^^SINGLE^0^0";
int length = s.length();
char[] oldChars = new char[length];
s.getChars(0, length, oldChars, 0);
int newLen = 0;
for (int j = 0; j < length; j++) {
char ch = oldChars[j];
if (ch < 0x80 ) {
oldChars[newLen] = ch;
newLen++;
}
}
s = new String(oldChars, 0, newLen);
//System.out.println("New String = \n " + s);
return s;
}catch(Exception e){
return null ;
}
}
}
1条答案
按热度按时间5jvtdoz21#
包裹
java.lang.Character
. 有一个功能getType
其中:返回一个值,该值指示字符的常规类别
导入
java.lang.Character
并替换:代码如下:
使用这些字符的组合,删除不需要的字符。