group-by-in-pig中的条件过滤器

zour9fqk 于 2021-06-03 发布在 Hadoop

关注(0)|答案(1)|浏览(368)

我有下面的数据集，如果多行具有相同的键，我需要将它们合并到一个数据集中。同时，我需要在分组的多个元组中进行挑选。

例如

A = LOAD 'data.txt' AS (f1:int, f2:chararray, f3:int, f4:int);
G = GROUP A BY (f1, f2);
DUMP G;

((1,N1),{(1,N1,1,10),(1,N1,2,15)})
((2,N1),{(2,N1,1,10)})
((3,N1),{(3,N1,1,10),(3,N1,2,15)})
((4,N2),{(4,N2,1,10)})
((5,N3),{(5,N3,1,10),(5,N3,2,20)})

现在，我想选择如果在收集的包中有多个元组，我只想过滤那些f3==2的元组。以下是我想要的最终数据：

((1,N1),{(1,N1,2,15)})   -- f3==2, f3==1 is removed from this set
((2,N1),{(2,N1,1,10)})
((3,N1),{(3,N1,2,15)})   -- f3==2, f3==1 is removed from this bag
((4,N2),{(4,N2,1,10)})
((5,N3),{(5,N3,2,10)})

你知道怎么做到吗？

hadoop apache-pig hadoop-streaming

来源：https://stackoverflow.com/questions/18213790/conditional-filter-in-group-by-in-pig

1条答案

按热度按时间

bihw5rsg1#

我按照上面评论的方式做了。我是这样做的。

A = LOAD 'group.txt' USING PigStorage(',') AS (f1:int, f2:chararray, f3:int, f4:int);
G = GROUP A BY (f1, f2);

CNT = FOREACH G GENERATE group, COUNT($1) AS cnt, $1;

SPLIT CNT INTO
    CNT1 IF (cnt > 1),
    CNT2 IF (cnt == 1);

M1 = FOREACH CNT1 {
        row = FILTER $2 BY (f3 == 2);
        GENERATE FLATTEN(row);
     };

M2 = FOREACH CNT2 GENERATE FLATTEN($2);

O = UNION M1, M2;

DUMP O;

(2,N1,1,10)
(4,N2,1,10)
(1,N1,2,15)
(3,N1,2,15)
(5,N3,2,20)

赞(0）回复(0）举报 2021-06-03

我来回答

group-by-in-pig中的条件过滤器

1条答案

相关问题

热门标签

最新问答