delta-lake增量清单文件生成

bttbmeg0  于 2021-05-29  发布在  Spark
关注(0)|答案(0)|浏览(236)

我正在尝试使用开源的delta-lakeapi在s3上设置delta-lake。我的表是按日期分区的,我必须执行合并(合并也可能更新旧分区)。我正在生成清单文件,以便使用aws athena查询delta lake,但是当我运行清单文件生成方法时,delta lakes为所有分区创建清单文件。有没有办法生成增量清单文件,只为最后更新的分区创建/更新文件,或者如果可以指定分区来生成清单文件。

df = spark.read.csv(s3://temp/2020-01-01.csv)
delta_table = DeltaTable.forPath(spark, delta_table_path)

delta_table.alias("source").merge(df.alias("new_data"), condition).whenNotMatchedInsertAll().execute()

delta_table.generate("symlink_format_manifest")

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题