python—从完整文件中分割插入、更新和删除的增量逻辑

93ze6v8z  于 2021-07-24  发布在  Java
关注(0)|答案(1)|浏览(301)

我们正在进行一个项目,在该项目中,我们每天收到约90gb的文件,其中包含约6000万行。问题是他们每天都要发送完整的文件(90gb),其中包括未更改的数据和新数据的历史记录。
现在我们的任务是只将新的插入、删除和更新拆分为单独的文件并加载。我们怎样才能有效地做到这一点?
使用的工具:datastage和aws(可以使用),如果它是经济高效的,并提供了良好的性能。将数据加载到雪花中的最终目标。

i7uaboj4

i7uaboj41#

听起来你想做的是从平面文件合并:
https://support.snowflake.net/s/article/how-to-perform-a-mergeupsert-from-a-flat-file-staged-on-s3
如果您的表中有操作而不是实际记录,则只需在执行此操作之前从表中提取最新的时间戳,并在合并完成后应用自该时间戳以来的所有操作

相关问题