如何计算字符数

vngu2lb8  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(257)

我有几个文本文件,我期待着在这些文件中的字符数,但不是所有的字符。我只需要数一数字母a、b和c在这些文件中出现了多少次。我对Pig很陌生。任何帮助都将不胜感激。谢谢!

q5iwbnjs

q5iwbnjs1#

将使用通配符*的所有文件加载到chararray类型的字段中。将行拆分为单词,然后再拆分为字母并计数。

A = LOAD '/path/text*.txt' AS (lines:chararray);
B = FOREACH A GENERATE FLATTEN(TOKENIZE((chararray)lines)) AS words;
C = FOREACH B GENERATE FLATTEN(TOKENIZE(REPLACE(words,'','|'), '|')) AS letters;
D = FILTER C BY (letters matches '.*(a|b|c).*');
E = GROUP D BY letters;
F = FOREACH E GENERATE group,COUNT(D);
DUMP F;

相关问题