将spark dataframe列中的json数据转换为表格格式

8zzbczxx 于 2021-07-14 发布在 Spark

关注(0)|答案(1)|浏览(313)

我得到了sparkdataframe，它是从多行json文件加载的。
列（数据）模式之一如下所示：

root
 |-- data: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- f: struct (nullable = true)
 |    |    |    |-- 0: struct (nullable = true)
 |    |    |    |    |-- v: double (nullable = true)
 |    |    |-- ts: string (nullable = true)

和样本数据：

array
0: {"f": {"0": {"v": 25.08}}, "ts": "2021-01-11T05:59:00.170Z"}
1: {"f": {"0": {"v": 25.92}}, "ts": "2021-03-22T03:29:00.170Z"}
2: {"f": {"0": {"v": 25.94}}, "ts": "2021-03-22T03:39:00.173Z"}
3: {"f": {"0": {"v": 25.95}}, "ts": "2021-03-22T03:49:00.170Z"}
4: {"f": {"0": {"v": 25.99}}, "ts": "2021-03-22T04:00:00.173Z"}

我只想提取ts和v。
示例结果

JSON python DataFrame apache-spark pyspark

来源：https://stackoverflow.com/questions/67013548/convert-json-data-in-spark-dataframe-column-into-tabular-format

1条答案

按热度按时间

6vl6ewon1#

可以将结构数组分解为多行，然后选择所需的结构元素：

import pyspark.sql.functions as F

df2 = df.select(F.explode('data').alias('data')).select('data.ts', 'data.f.0.v')

df2.show(truncate=False)
+------------------------+-----+
|ts                      |v    |
+------------------------+-----+
|2021-01-11T05:59:00.170Z|25.08|
|2021-03-22T03:29:00.170Z|25.92|
|2021-03-22T03:39:00.173Z|25.94|
|2021-03-22T03:49:00.170Z|25.95|
|2021-03-22T04:00:00.173Z|25.99|
+------------------------+-----+

赞(0）回复(0）举报 2021-07-14

我来回答

将spark dataframe列中的json数据转换为表格格式

1条答案

相关问题

热门标签

最新问答