pyspark将列表更改为rdd类型，但不更改id

zour9fqk 于 2021-05-27 发布在 Spark

关注(0)|答案(0)|浏览(272)

假设我在Pypark里有这个：


# 1 million elements in data list

data = [ { "a": 1, "b" : 1 }, { "a" : 2, "b" : 2 }, { "a" : 3, "b" : 3 }..... ]

我想使用rdd对数据列表的一部分进行map reduce：

sc = pyspark.SparkContext(  master = 'spark://192.168.56.103:7077',appName = 'test' )
rdd = sc.parallelize( A_Part_Of_Data_List )
rdd.map( lambda x : DO_SOMETHING() if x['a']>100 else x )

但当我使用 sc.parallelize() 改变 A_Part_Of_Data_List 对于rdd类型，的内存地址（id） A_Part_Of_Data_List 元素也发生了变化。
rdd中的更改不会更改原始数据。
是否可以在不更改元素id的情况下将列表类型更改为rdd类型？

python apache-spark pyspark

来源：https://stackoverflow.com/questions/62630624/pyspark-change-list-to-rdd-type-wihtout-changing-id

暂无答案！

目前还没有任何答案，快来回答吧！

我来回答

pyspark将列表更改为rdd类型，但不更改id

暂无答案！

相关问题

热门标签

最新问答