编写sparkDataframe或编写glue动态帧,在aws glue中哪个选项更好?

brjng4g3  于 2021-05-29  发布在  Spark
关注(0)|答案(1)|浏览(382)

在aws glue中,我从glue动态框架中的数据目录中读取数据。然后将动态帧转换为spark dataframe以应用模式转换。为了将数据写回s3,我见过开发人员将Dataframe转换回dynamicframe。与编写glue动态帧相比,编写sparkDataframe有什么优势吗?

11dmarpk

11dmarpk1#

您将发现,在使用Dataframe时,只有动态帧编写器类才能使用以下功能:
当您想要利用到jdbc源的连接时,也要基于s3源写入目录表。i、 e使用 from_jdbc_conf 使用格式写入Parquet地板 glueparquet 作为一种格式。
使用书签跟踪目标位置中已处理的文件
这些是我能想到的一些用例,但是如果你有一个需要使用保存模式的用例,例如, mode('overwrite') 你可以使用Dataframe。然而,在动态帧中存在类似的方法,但实现方式略有不同。你可以看看 [purge_s3_path][3] 然后写。

相关问题