我尝试在我的Glue作业中使用Delta Lake Python库,但是,我的Glue作业无法识别它,并收到错误消息"NameError:名称'DeltaTable'未定义"。根据Glue-DeltaLake文档,我添加了参数--datalake-formats = delta,还更新了所需的spark配置
.config("spark.sql.extensions","io.delta.sql.DeltaSparkSessionExtension")
.config("spark.sql.catalog.spark_catalog","org.apache.spark.sql.delta.catalog.DeltaCatalog")
我的代码在以下行失败
deltaTable = DeltaTable.forPath(self.spark,self.dest_path_sdad)
有什么想法吗?
1条答案
按热度按时间lztngnrs1#
这些配置属性将Glue配置为Delta Lake文件格式,因此您可以编写
spark.read.format("delta").load(...)
或df.write.format("delta").save(...)
,但它们不提供delta-spark包中提供的Python API,可以通过使用--additional-python-modules
选项(doc)使Glue可以使用该API。