假设我在Pypark里有这个:
# 1 million elements in data list
data = [ { "a": 1, "b" : 1 }, { "a" : 2, "b" : 2 }, { "a" : 3, "b" : 3 }..... ]
我想使用rdd对数据列表的一部分进行map reduce:
sc = pyspark.SparkContext( master = 'spark://192.168.56.103:7077',appName = 'test' )
rdd = sc.parallelize( A_Part_Of_Data_List )
rdd.map( lambda x : DO_SOMETHING() if x['a']>100 else x )
但当我使用 sc.parallelize()
改变 A_Part_Of_Data_List
对于rdd类型,的内存地址(id) A_Part_Of_Data_List
元素也发生了变化。
rdd中的更改不会更改原始数据。
是否可以在不更改元素id的情况下将列表类型更改为rdd类型?
暂无答案!
目前还没有任何答案,快来回答吧!