在Spark添加列中,在特定条件下,具有不同的铅值之和

ztigrdn8  于 2021-05-24  发布在  Spark
关注(0)|答案(0)|浏览(226)

在特定条件为真之前,我需要在Dataframe中添加一个列“sum of distinct accounts verified”,在下面的示例中,当我需要将值重置为1时,sum of distinct account until verified='n'。迄今为止,我们一直在尝试使用滞后/超前策略,但没有取得任何重大成功。向社区征求意见/建议。。

User    account     verified
=============================
user1   acc-a       N
user1   acc-a       Y
user1   acc-b       Y
user1   acc-b       Y
user1   acc-a       N  - reset verified_accounts=1 when value ='N'
user1   acc-b       Y
user1   acc-a       N  - reset verified_accounts=1 when value ='N'
user1   acc-a       Y
user1   acc-a       N

user2   acc-a       N
user2   acc-b       Y
user2   acc-c       Y
user2   acc-a       N  - reset verified_accounts=1 when value ='N'
user2   acc-a       Y

这里是预期的输出=>

User        account     verified    verified_accounts
==================================================
user1       acc-a       N           2
user1       acc-a       Y           2
user1       acc-b       Y           2
user1       acc-b       Y           2
user1       acc-a       N           2
user1       acc-b       Y           2
user1       acc-a       N           1
user1       acc-a       Y           1
user1       acc-a       N           1

user2       acc-a       N           3
user2       acc-b       Y           3
user2       acc-c       Y           3
user2       acc-a       N           1
user2       acc-a       Y           1

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题