sparkDataframe,连接两个数据集,并通过记录的键和最新时间戳对记录进行重复数据消除

ia2d9nvy  于 2021-05-29  发布在  Hadoop
关注(0)|答案(0)|浏览(221)

我需要一些帮助以一种有效的方式连接两个数据集,并通过一个键和一个记录的最新时间戳对记录进行重复数据消除。
用例:需要为每个表运行每日增量刷新,并每天提供提取的快照
对于每个表,获取一个每日增量文件:1.5亿条记录需要对一个历史完整卷文件(30亿)运行重复数据消除过程。重复数据消除过程需要通过复合主键运行,并通过时间戳获取最新记录。每个记录都包含一个键和一个时间戳。文件可以在orc和Parquet格式使用Spark。

暂无答案!

目前还没有任何答案,快来回答吧!

相关问题