pyspark 胶水无法识别Delta Lake Python库

oipij1gg  于 2023-01-25  发布在  Spark
关注(0)|答案(1)|浏览(115)

我尝试在我的Glue作业中使用Delta Lake Python库,但是,我的Glue作业无法识别它,并收到错误消息"NameError:名称'DeltaTable'未定义"。根据Glue-DeltaLake文档,我添加了参数--datalake-formats = delta,还更新了所需的spark配置

.config("spark.sql.extensions","io.delta.sql.DeltaSparkSessionExtension")
.config("spark.sql.catalog.spark_catalog","org.apache.spark.sql.delta.catalog.DeltaCatalog")

我的代码在以下行失败

deltaTable = DeltaTable.forPath(self.spark,self.dest_path_sdad)

有什么想法吗?

lztngnrs

lztngnrs1#

这些配置属性将Glue配置为Delta Lake文件格式,因此您可以编写spark.read.format("delta").load(...)df.write.format("delta").save(...),但它们不提供delta-spark包中提供的Python API,可以通过使用--additional-python-modules选项(doc)使Glue可以使用该API。

相关问题