pyspark 使用spark作为引擎使用dbt读取JSON

dvtswwa3  于 5个月前  发布在  Spark
关注(0)|答案(1)|浏览(63)

我想使用dbt创建一个Lakehouse,并使用spark作为它的引擎。作为第一步,我想读取一些原始文件,例如json文件,并将它们写为deltaiceberg表。但似乎dbt-spark不支持此功能。我错过了什么吗?还是这真的不可能?如果不是,一个人怎么能摄取原始文件并再次写为表呢?我看到dbt-duckdb支持这种行为,而且它很有效,但遗憾的是,它们不支持这些外部表格式。我只是想避免创建用于首先摄取数据的单Spark作业。我希望使用dbt的值。该值为

wmtdaxz3

wmtdaxz31#

你是对的,dbt-spark目前不直接支持阅读原始文件和写入dbt模型中的Delta或Iceberg表。
1.使用PySpark或Scala创建独立的Spark作业,以读取原始文件并将其写入Delta或Iceberg表。
1.安排这些作业在dbt模型之前运行。
1.在您的dbt模型中引用生成的表以进行进一步的转换和分析。
您还可以检查实验dbt-external-tables插件(https://github.com/dbt-labs/dbt-external-tables

相关问题