databricks:全局非托管表、分区元数据同步保证

fdx2calv  于 2021-05-27  发布在  Spark
关注(0)|答案(1)|浏览(280)

目标

我想从adls数据创建databricks全局非托管表,并从多个集群(自动化和交互式)使用它们。所以我在做什么 CREATE TABLE my_table ... 首先,然后 MSCK REPAIR TABLE my_table . 我正在使用databricks内部配置单元元存储。

问题

有时 MSCK REPAIR 没有在集群间同步(几个小时内)。表示群集1立即看到分区,而群集2有一段时间没有看到任何数据。
有时它是同步的,但我还是不明白为什么它在其他情况下不起作用。

问题

Databrick是否为每个集群使用单独的内部hive元存储?如果是的话,集群之间的同步有什么保证吗?

rwqw0loc

rwqw0loc1#

我相信每个databricks部署都有一个hive元存储:https://docs.databricks.com/data/metastores/index.html.
因此,如果要立即更新metastore,那么下一个最可能的问题是缓存了旧表元数据,因此看不到更新。你试过跑步吗

REFRESH <database>.<table>;

在出现同步问题的群集上?

相关问题