databricks在awss3中的应用

pdsfdshx  于 2021-05-27  发布在  Spark
关注(0)|答案(2)|浏览(419)

我在Spark3.0上有一份每天运行的databricks的工作。我使用overwrite在s3分区文件夹中写入每个数据。直到今天早上一切都很好。我检查了我的s3,发现 committed_vacuum 在我的日常生活中。有人知道这到底意味着什么吗?

eanckbw9

eanckbw91#

在此处输入图像描述
不确定。我没有用三角洲。尽管我使用的是spark.conf.set(“spark.sql.sources.partitionoverwritemode”,“dynamic”)

nszi6y05

nszi6y052#

根据databricks文档,您可以在这里看到,我觉得这个分区或出现了故障,文件没有正确地提交给s3。这是databricks提供的工具之一,其功能取自delta-lake项目,允许并发写入。
所以你的工作可能失败了,或者提交没有正确地进行 committed_vacuum 是未提交数据的结果。

相关问题