我想为下面的查询编写一个pig脚本。
输入为:
AAA,,,
,BBB,,
,,,DDD
AAA,,,
,BBB,,
,,CCC,
,,,DDD
AAA,,,
,BBB,,
,,,DDD
输出应为:
AAA,BBB,,DDD
AAA,BBB,CCC,DDD
AAA,BBB,,DDD
我尝试过在pig中合并两行,但如果我尝试拆分bag split(3,$1),则输出不正确,因为我的输出将合并前三行,然后合并后四行,然后再合并后三行
输入可能会增加,但最后一行最重要的是,,,ddd。
有人能帮我吗?
1条答案
按热度按时间erhoui1w1#
你的输入数据应该分成不同的长度(3,4,3),所以
BagSplit
在这种情况下,函数将不起作用。你能试试下面的方法吗?关系的重复部分E (TOTUPLE)
可以使用MACROS
但它会导致更多的混乱,所以我没有优化到现在。输入文件
Pig手稿:
输出: