如果我在dataframe中有一个简单的表,并且带有schema:
a string, b string, c string
例如:
a b c
cat 3-3 78-b
cat 3-3 89-0
cat 4-4 78-n
dog 4-4 89-b
等等。我想按列a对这个表进行分区,并将每个分区保存为单独的json。
此外,我希望每个分区都是一个json文件,其中b列中的值是键。例如:
File cat.json:
{
"3-3": {"b": "3-3", "c": "78-b"},
"3-3": {"b": "3-3", "c": "89-0"},
"4-4": {"b": "4-4", "c": "78-n"}
}
File dog.json:
{
"4-4": {"b": 4-4, "c": "89-b"}
}
有没有办法在Pypark中做到这一点?谢谢
2条答案
按热度按时间xwbd5t1u1#
只需为dataframe添加一个行Map逻辑,就可以了,请在内联找到代码解释
gmol16392#
尝试使用以下解决方案-
1. 加载数据
2. 根据需要创建Map
3. 保存Dataframe