在rdd中展平类型为(list,integer)的元组列表

9njqaruj  于 2021-07-13  发布在  Spark
关注(0)|答案(1)|浏览(261)

我在pyspark中有一个格式为(list,integer)的元组rdd。
例子:

(["Hello","How","are","you"],12)

我想把它转换成rdd类型

("Hello",12),
("How",12),
("are",12),
("you",12)
7y4bm7vi

7y4bm7vi1#

你可以用 flatMap :

rdd.collect()

# [(['Hello', 'How', 'are', 'you'], 12)]

rdd2 = rdd.flatMap(lambda r: [(i, r[1]) for i in r[0]])

rdd2.collect()

# [('Hello', 12), ('How', 12), ('are', 12), ('you', 12)]

相关问题