有一个带有车辆数据的rdd。我能够得到rdd的键值对,并将licïstate作为每个记录的键。如何将键控rdd划分为两个分区,在一个分区中保留记录,在另一个分区中保留其余的记录
hpxqektj1#
您可以编写并应用自定义分区器,根据键拆分数据。首先定义partitioner逻辑
def partitionFunc(key): if key == "SA": return 0 else return 1
在哪儿 key 是“利库州”。然后把它用在你的脸上 RDD :
key
RDD
partitionedRDD = keyedRDD.partitionBy(2, partitionFunc)
哪里 keyedRDD 是您的键/值配对rdd。
keyedRDD
1条答案
按热度按时间hpxqektj1#
您可以编写并应用自定义分区器,根据键拆分数据。
首先定义partitioner逻辑
在哪儿
key
是“利库州”。然后把它用在你的脸上RDD
:哪里
keyedRDD
是您的键/值配对rdd。