使用pyspark对rdd对象的元素进行随机洗牌/重新排序

9njqaruj  于 2021-07-14  发布在  Spark
关注(0)|答案(1)|浏览(348)

我有一个由列表对象组成的rdd对象(例如:[[1,2],[3,4],[5,6]])。我需要取一个样本,然后使用sample()pyspark函数,但是它看起来像是检索第一个元素,而不是随机样本。
我当时的想法是对元素进行无序排列,然后使用sample()函数,但我不能进行随机化。

juud5qan

juud5qan1#

你可以用 takeSample :

rdd2 = rdd.takeSample(False, 1)

第一个参数是是否使用替换进行采样,第二个参数是要从rdd中采样多少项。

相关问题