sql—在配置单元中插入不带重复项的表到表

lpwwtiir  于 2021-06-25  发布在  Hive
关注(0)|答案(0)|浏览(247)

我有表a作为截断和加载每个月的文件和表b将被追加
所以表a将是配置单元中的文件到表表表b将是表a插入并附加数据
这里的问题是表b是直接移动的,从表a中选择stmt,很可能它可以插入重复/相同的数据
我应该如何写一个select查询来插入表a中的数据这两个表都有文件日期,因为左边的join列a和b在此插入表中给出了错误的计数
配置单元不适用于不存在的代码
问题是:
追加表脚本:按yearmonth分区
insert into table dist.t2选择person_sk,np_id,yearmonth,insert_date file_date from table raw.ma
表raw.ma中的数据-这是截断并重新加载文件1data:201902 file2data:201903文件3data:201904 file4data:如果将201902数据加载到表-这不应与file1数据重复。。它要么不应该被插入,要么应该覆盖该分区
这里我需要一个过滤器或where条件将数据附加到dist.t2中
你能帮个忙吗??
我尝试在hive中改变drop表分区,但在spark框架中失败了
请帮助避免重复条目插入

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题