在databricks中将云数据源注册为全局表而不复制

0x6upsns 于 2021-05-17 发布在 Spark

关注(0)|答案(1)|浏览(355)

假设我在azure存储中有一个增量表：

wasbs://mycontainer@myawesomestorage.blob.core.windows.net/mydata

这可以从我的databricks环境中获得。我现在希望通过全局表获得这些数据，自动加载到所有集群，并在“数据”部分可见。
我可以通过复制轻松做到这一点：

spark.read\
  .load("wasbs://mycontainer@myawesomestorage.blob.core.windows.net/mydata")\
  .write.saveAsTable("my_new_table")

但这是昂贵的，我需要偶尔运行它（不过，结构化流将有所帮助）。但是，是否可以直接将源注册为全局表，而不必复制所有文件？

1条答案

可以在databricks笔记本单元中使用create table using语句：

%sql

CREATE TABLE IF NOT EXISTS default.my_new_table 
  USING DELTA 
  LOCATION "wasbs://mycontainer@myawesomestorage.blob.core.windows.net/mydata"

表my\u new\u表应该出现在databricks data选项卡的默认数据库中。