比较两个pysparkDataframe并修改其中一个?

jjhzyzn0  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(311)

我找不到一个有争议的方法来做这件事,我希望你们当中的一些数据Maven能够提供帮助:
我有两个Dataframe:
1

item_list
[1,2,3,4,5,6,7,0,0]
[1,2,3,4,5,6,7,8,0]

2

item_list
[3,0,0,4,2,6,1,0,0]

我想返回这样一个新的Dataframe。对于df2中的每个非零值,如果df1在该索引处不是零值,则将其替换为1,并返回一个新的Dataframe。
结果:

item_list
[3,1,1,4,2,6,1,1,0]

这在标准python中相当容易做到。在spark我怎么做?

brvekthn

brvekthn1#

即使您使用的是spark,也不一定意味着您必须只使用spark方法和流程来解决问题。
我建议你分析一个问题,找出最接近的解决办法。因为您使用的是pyspark,并且有两个列表,所以实际上可以使用python(如您所提到的)轻松地在spark上实现这一点,在当前场景中,这可能是实现这一点的更理想的方法。
当你认为一种语言pyhton或scala无法实现或可能实现时,spark就发挥了作用,但是spark可以有一些帮助库,让你的生活变得轻松。

相关问题