下面的示例数据必须使用pig脚本转换为输出格式
<<tsv示例>>
Id rank Value
12324 1 1582
12324 2 1142
12324 4 1292
12324 5 1134
12325 1 1582
12325 2 1142
12325 3 1292
12325 4 1134
12325 5 1183
12326 1 1582
12326 2 1142
12326 3 1292
12326 4 1134
12326 5 1183
我们需要比较每个id的每个列的值(值列的值)。
输出需要按以下格式生成
Id1 Id2
value_rank1 value_rank1
value_rank2 value_rank2
value_rank3 value_rank3
... ........
value_rankn value_rankn
例如。
12324 12325 ..
1582 1582
1142 1142
1292
1292 1134
1134 1183
对于某个特定id的任何缺少的秩,都必须有一个空值。
使用pig脚本有什么方法可以实现这一点吗?
1条答案
按热度按时间zpgglvta1#
pig按记录操作数据(基于行)。在etl操作之后,它为大多数情况生成基于行的记录。
根据您的需求,我认为可以使用自定义项(生成占位符)生成以下内容:
然后在其他软件中将数据从行转换到列(例如,在excel中使用“粘贴特殊->转换”)。