用pig拉丁语查找文件中逗号的数量

nukf8bse  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(220)

文件有n行,每行有3个属性,用逗号分隔。
例如:input filex包含字段 name,number,amt .
内容

abc,123,123
bcd,345,234
cde,349,900

输出:6
i、 e如何找到逗号的数目?

qq24tv8q

qq24tv8q1#

加载文件,使中的整个记录存储在1字段中。然后将行标记为字母。仅筛选逗号、组和计数逗号。

A = load '/home/user/fileX';
B = foreach A generate flatten(TOKENIZE(REPLACE($0,'','|'), '|')) as letter;
C = filter B BY (letter == ',');
D = group C by letter;
E = foreach D generate COUNT(C), group;--Note:if you want only the count then remove the group and generate COUNT(C)
DUMP E;

输出

相关问题