sparkDataframe，连接两个数据集，并通过记录的键和最新时间戳对记录进行重复数据消除

ia2d9nvy 于 2021-05-29 发布在 Hadoop

关注(0)|答案(0)|浏览(221)

我需要一些帮助以一种有效的方式连接两个数据集，并通过一个键和一个记录的最新时间戳对记录进行重复数据消除。
用例：需要为每个表运行每日增量刷新，并每天提供提取的快照
对于每个表，获取一个每日增量文件：1.5亿条记录需要对一个历史完整卷文件（30亿）运行重复数据消除过程。重复数据消除过程需要通过复合主键运行，并通过时间戳获取最新记录。每个记录都包含一个键和一个时间戳。文件可以在orc和Parquet格式使用Spark。

hadoop rdd apache-spark pyspark spark-dataframe

来源：https://stackoverflow.com/questions/43788958/spark-data-frame-join-two-datasets-and-de-dup-the-records-by-a-key-and-latest-t