spark，delta-lake嵌套列的自动模式演化

hsgswve4 于 2021-07-13 发布在 Spark

关注(0)|答案(1)|浏览(313)

模式演化在合并时的工作深度是多少？
在以下情况下，合并时自动模式演化不起作用。

import json
d1 = {'a':'b','b':{'c':{'1':1}}}
d2 = {'a':'s','b':{'c':{'1':2,'2':2}}}
d3 = {'a':'v','b':{'c':{'1':4}}}

df1 = spark.read.json(spark.sparkContext.parallelize([json.dumps(d1)]))

# passes

df1.write.saveAsTable('test_table4',format='delta',mode='overwrite', path=f"hdfs://hdmaster:9000/dest/test_table4")

df2 = spark.read.json(spark.sparkContext.parallelize([json.dumps(d2)]))
df2.createOrReplaceTempView('updates')

query = """
MERGE INTO test_table4 existing_records 
        USING updates updates 
        ON existing_records.a=updates.a
        WHEN MATCHED THEN UPDATE SET * 
        WHEN NOT MATCHED THEN INSERT *
"""
spark.sql("set spark.databricks.delta.schema.autoMerge.enabled=true")
spark.sql(query) #passes

df3 = spark.read.json(spark.sparkContext.parallelize([json.dumps(d3)]))

df3.createOrReplaceTempView('updates')
query = """
MERGE INTO test_table4 existing_records 
        USING updates updates 
        ON existing_records.a=updates.a
        WHEN MATCHED THEN UPDATE SET * 
        WHEN NOT MATCHED THEN INSERT *
"""
spark.sql("set spark.databricks.delta.schema.autoMerge.enabled=true")
spark.sql(query) #FAILS #FAILS

当深度大于2并且传入的df缺少列时，这看起来会失败。这是故意的吗？这件事处理得很好 option("mergeSchema", "true") 如果要附加。但我想把数据插上去。但merge无法处理此架构更改
使用delta lake版本0.8.0

apache-spark pyspark delta-lake bigdata

来源：https://stackoverflow.com/questions/66335154/spark-delta-lake-auto-schema-evolution-for-nested-columns