如何用spark/scala将这样一个嵌套的多行json文件读入Dataframe中

nwwlzxa7 于 2021-07-12 发布在 Spark

关注(0)|答案(3)|浏览(331)

我有以下json：

{
    "value":[
            {"C1":"val1","C2":"val2"},
            {"C1":"val1","C2":"val2"},
            {"C1":"val1","C2":"val2"}
        ]
}

我试着这样读：

spark.read
  .option("multiLine", true).option("mode", "PERMISSIVE")
  .json("/Projects.json")
  .show(10)

但是它不能在Dataframe中正确地显示我的记录，我如何绕过“值”嵌套来正确地在Dataframe中显示我的行？
当前结果：

我想要得到的结果是：

C1   |   C2
-------------------
    VAL1 |   VAL2
    VAL1 |   VAL2
    ...etc

scala apache-spark apache-spark-sql spark3

来源：https://stackoverflow.com/questions/66583863/how-to-read-such-a-nested-multiline-json-file-into-a-data-frame-with-spark-scala

3条答案

按热度按时间

syqv5f0l1#

查看Dataframe的模式( jsonDf )spark.read返回：

jsonDf.printSchema()
root
 |-- value: array (nullable = true)
 |    |-- element: struct (containsNull = true)
 |    |    |-- C1: string (nullable = true)
 |    |    |-- C2: string (nullable = true)

您可以使用sql函数 explode 然后选择这两个元素 C1 以及 C2 如下图所示：

val df = jsonDf
    .withColumn("parsedJson", explode(col("value")))
    .withColumn("C1", col("parsedJson.C1"))
    .withColumn("C2", col("parsedJson.C2"))
    .select(col("C1"), col("C2"))
    .show(false)

这将导致所需的结果：

+----+----+
|C1  |C2  |
+----+----+
|val1|val2|
|val1|val2|
|val1|val2|
+----+----+

赞(0）回复(0）举报 2021-07-12

goucqfw62#

我终于用以下函数找到了解决问题的方法：

def flattenDataframe(df: DataFrame): DataFrame = {

    val fields = df.schema.fields
    val fieldNames = fields.map(x => x.name)
    val length = fields.length

    for(i <- 0 to fields.length-1){
      val field = fields(i)
      val fieldtype = field.dataType
      val fieldName = field.name
      fieldtype match {
        case arrayType: ArrayType =>
          val fieldNamesExcludingArray = fieldNames.filter(_!=fieldName)
          val fieldNamesAndExplode = fieldNamesExcludingArray ++ Array(s"explode_outer($fieldName) as $fieldName")
         // val fieldNamesToSelect = (fieldNamesExcludingArray ++ Array(s"$fieldName.*"))
          val explodedDf = df.selectExpr(fieldNamesAndExplode:_*)
          return flattenDataframe(explodedDf)
        case structType: StructType =>
          val childFieldnames = structType.fieldNames.map(childname => fieldName +"."+childname)
          val newfieldNames = fieldNames.filter(_!= fieldName) ++ childFieldnames
          val renamedcols = newfieldNames.map(x => (col(x.toString()).as(x.toString().replace(".", "_"))))
         val explodedf = df.select(renamedcols:_*)
          return flattenDataframe(explodedf)
        case _ =>
      }
    }
    df
  }

来源https://medium.com/@saikrishna_55717/flattening-嵌套-data-json-xml-using-apache-spark-75fa4c8ea2a7

赞(0）回复(0）举报 2021-07-12

ujv3wf0j3#

使用 inline 将完成以下工作：

val df = spark.read
  .option("multiLine", true).option("mode", "PERMISSIVE")
  .json("/Projects.json")

val df2 = df.selectExpr("inline(value)")
df2.show
+----+----+
|  C1|  C2|
+----+----+
|val1|val2|
|val1|val2|
|val1|val2|
+----+----+

赞(0）回复(0）举报 2021-07-12

我来回答

如何用spark/scala将这样一个嵌套的多行json文件读入Dataframe中

3条答案

相关问题

热门标签

最新问答