pyspark将列表更改为rdd类型,但不更改id

zour9fqk  于 2021-05-27  发布在  Spark
关注(0)|答案(0)|浏览(272)

假设我在Pypark里有这个:


# 1 million elements in data list

data = [ { "a": 1, "b" : 1 }, { "a" : 2, "b" : 2 }, { "a" : 3, "b" : 3 }..... ]

我想使用rdd对数据列表的一部分进行map reduce:

sc = pyspark.SparkContext(  master = 'spark://192.168.56.103:7077',appName = 'test' )
rdd = sc.parallelize( A_Part_Of_Data_List )
rdd.map( lambda x : DO_SOMETHING() if x['a']>100 else x )

但当我使用 sc.parallelize() 改变 A_Part_Of_Data_List 对于rdd类型,的内存地址(id) A_Part_Of_Data_List 元素也发生了变化。
rdd中的更改不会更改原始数据。
是否可以在不更改元素id的情况下将列表类型更改为rdd类型?

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题