python—如何根据一个键控rdd的键值将其划分为两个分区

fafcakar  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(373)

有一个带有车辆数据的rdd。我能够得到rdd的键值对,并将licïstate作为每个记录的键。
如何将键控rdd划分为两个分区,在一个分区中保留记录,在另一个分区中保留其余的记录

hpxqektj

hpxqektj1#

您可以编写并应用自定义分区器,根据键拆分数据。
首先定义partitioner逻辑

def partitionFunc(key):
    if key == "SA":
        return 0
    else
        return 1

在哪儿 key 是“利库州”。然后把它用在你的脸上 RDD :

partitionedRDD = keyedRDD.partitionBy(2, partitionFunc)

哪里 keyedRDD 是您的键/值配对rdd。

相关问题