在spark中处理多个分组行

s3fp2yjn  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(196)

我有以下几行数据;管道(“|”)分隔的csv数据:

id|name|address|updated_date
1|Binita|Satdobato|20151212
1|Binita|Kalimati|20161212
2|Rohita|Kalanki|20151212
2|Rohita|Dharan|20141212

现在我需要按id和姓名分组,并用最新的更新日期更新地址。预期输出如下:

id|name|address|updated_date
1|Binita|Kalimati|20151212
1|Binita|Kalimati|20161212
2|Rohita|Kalanki|20151212
2|Rohita|Kalanki|20141212

现在我如何在javardd中使用spark来实现输出。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题