如何在分组之后从pig中展平并获得如下所示的预期输出

zfciruhq  于 2021-07-15  发布在  Hadoop
关注(0)|答案(1)|浏览(242)

样品日期:
身份证日期
12345 12 20210204
12345 13 20210204
12345 2 20210204
输入:
(12345,{(12345,12,20210204),(12345,13,20210204),(12345,2,20210204)})
所需输出:
(12345,27,20210204)
第二个元素是聚合值。
感谢您的帮助

wb1gzix0

wb1gzix01#

output = FOREACH input GENERATE
    group AS ID,
    SUM(sample.marks) AS mark_sum,
    MIN(sample.date) AS first_date;

您可能需要根据关系和字段名进行调整。如果这些字段都相同,您也可能希望按日期字段分组。

相关问题