在我的spark程序中,我有以下命令
df.write
.mode(SaveMode.Append)
.partitionBy("year","month","day")
.format(format)
.option("path",path)
.saveAsTable(table_name)
当我在同一天运行它两次时,我的数据中有重复项。所以我希望它附加数据,但是当一些分区已经存在时,它应该覆盖它们。
在我的spark程序中,我有以下命令
df.write
.mode(SaveMode.Append)
.partitionBy("year","month","day")
.format(format)
.option("path",path)
.saveAsTable(table_name)
当我在同一天运行它两次时,我的数据中有重复项。所以我希望它附加数据,但是当一些分区已经存在时,它应该覆盖它们。
1条答案
按热度按时间xxls0lw81#
这里使用的是hive集成,但只能是spark目录,一个完整的示例:
1) 需要摆table吗
2) 在安装之后用这种方式更新一个分区
3) 看看效果:
退货:
这是分区覆盖的证据。