pyspark 使用spark作为引擎使用dbt读取JSON

dvtswwa3 于 5个月前发布在 Spark

关注(0)|答案(1)|浏览(63)

我想使用dbt创建一个Lakehouse，并使用spark作为它的引擎。作为第一步，我想读取一些原始文件，例如json文件，并将它们写为delta或iceberg表。但似乎dbt-spark不支持此功能。我错过了什么吗？还是这真的不可能？如果不是，一个人怎么能摄取原始文件并再次写为表呢？我看到dbt-duckdb支持这种行为，而且它很有效，但遗憾的是，它们不支持这些外部表格式。我只是想避免创建用于首先摄取数据的单Spark作业。我希望使用dbt的值。该值为

pyspark

来源：https://stackoverflow.com/questions/77724122/read-json-with-dbt-using-spark-as-engine

1条答案

按热度按时间

wmtdaxz31#

你是对的，dbt-spark目前不直接支持阅读原始文件和写入dbt模型中的Delta或Iceberg表。
1.使用PySpark或Scala创建独立的Spark作业，以读取原始文件并将其写入Delta或Iceberg表。
1.安排这些作业在dbt模型之前运行。
1.在您的dbt模型中引用生成的表以进行进一步的转换和分析。
您还可以检查实验dbt-external-tables插件（https://github.com/dbt-labs/dbt-external-tables

赞(0）回复(0）举报 5个月前

我来回答

pyspark 使用spark作为引擎使用dbt读取JSON

1条答案

相关问题

热门标签

最新问答