在pig中过滤记录

k4ymrczo 于 2021-05-29 发布在 Hadoop

关注(0)|答案(1)|浏览(302)

以下是数据

col1,col2,col3,col4,col5
------------------------
10,20,30,40,dollar
20,30,40,50,dollar
20,30,10,50,dollar
61,62,63,64,dollar
61,62,63,64,pound

col1、col2、col3将形成唯一键的组合。用例是基于col5过滤数据。对于唯一的键组合，我们需要过滤col5值为“dollar”的记录，前提是相同的组合具有“pound”值。
预期输出为

col1,col2,col3,col4,col5
------------------------
10,20,30,40,dollar
20,30,40,50,dollar
20,30,10,50,dollar
61,62,63,64,pound

如何进一步进行，因为没有特殊的操作人员在Pig一样的Hive。

A = load 'test1.csv' using PigStorage(',') as (col1:int,col2:int,col3:int,col4:int,col5:chararray);
B = FILTER A BY col5 == 'pound';

hadoop apache-pig

来源：https://stackoverflow.com/questions/45597526/filter-records-in-pig

1条答案

按热度按时间

avwztpqn1#

获取带有pound的所有记录，然后获取与col5中带有pound的id组合不匹配的带有dollar的所有记录。最后，把他们嫁出去。。。工会。

B = FILTER A BY col5 == 'pound';
C = JOIN A BY (col1,col2,col3) LEFT OUTER,B BY (col1,col2,col3);
D = FILTER C BY (B::col1 is null);
E = FOREACH D GENERATE A::col1,A::col2,A::col3,A::col4,A::col5;
F = UNION B,E;
DUMP F;

输出

赞(0）回复(0）举报 2021-05-29

我来回答

在pig中过滤记录

1条答案

相关问题

热门标签

最新问答