databricks集群是否需要一直为delta-lake的真空操作服务?

oxf4rvwz  于 2021-05-16  发布在  Spark
关注(0)|答案(2)|浏览(386)

我正在使用azure databricks和集群的最新运行时。我对三角洲湖的真空操作有些困惑。我们知道可以对已删除的数据设置保留期,但是,对于保留期结束后要删除的实际数据,是否需要在整个保留期内保持群集正常运行?
简单地说-:我们是否需要让集群始终处于运行状态才能利用delta lake?

tyg4sfes

tyg4sfes1#

显然,您需要一个集群来启动并始终运行,以查询databricks表中可用的数据。
如果您已经为databricks配置了外部元存储,那么您可以使用任何 Package 器,比如apachehive,将其指向该外部元存储db,并使用hive层查询数据,而不使用databricks。

piok6c0g

piok6c0g2#

您不需要总是保持集群的正常运行。您可以安排真空作业每天(或每周)运行,以清理早于阈值的过时数据。三角洲湖不需要一个永远在线的集群。所有数据/元数据都存储在存储器(s3/adls/abfs/hdfs)中,因此不需要保持任何正常运行。

相关问题