sqoop导入验证

llew8vvj  于 2021-06-03  发布在  Sqoop
关注(0)|答案(1)|浏览(380)

在使用sqoop将数据从源系统(postgres、oracle、sqlserver)导入hdfs之后,有谁能帮我理解一下吗。您执行了哪些检查来查看所有数据是否正确导入,并且没有任何差异。如何确保导入的数据不是重复数据。你还做了哪些检查?

k97glaaz

k97glaaz1#

例如,对于导入后的自动数据质量检查,可以检查
count using sqoop eval=加载分区的hdfs(配置单元)中的计数。作为etl过程的最后一步,这是最简单和有用的。此检查显示所有数据很可能都已加载且没有DUP。
使用sqoop eval=sum in hive对某列求和。也适用于加载分区。此检查表明,在某些概率下,数据加载正确,列排列有序(没有混乱)。
一次应用少量这样的检查将增加在数据加载中发现错误的概率。
当然,使用简单快速的查询很难覆盖load中所有可能的bug。但对于自动化的数据质量检查来说,这已经足够了。

相关问题