我在PySpark中有一个 Dataframe ,看起来像这样:
row_id, group_id
1, 1
2, null
3, null
4, null
5, 5
6, null
7, null
8, 8
9, null
10, null
11, null
12, null
字符串
等等:其中row_id是序列号(递增的和唯一的),group_id是从value第一次出现到下一个值的组的唯一id。任务是像这样将所有null填充到 Dataframe :
row_id, group_id
1, 1
2, 1
3, 1
4, 1
5, 5
6, 5
7, 5
8, 8
9, 8
10, 8
11, 8
12, 8
型
每个组中有未知数量的记录(示例显示少量),但它将以100秒为单位, Dataframe 的长度以百万为单位。
1条答案
按热度按时间kxeu7u2r1#
字符串