如何在没有sqoop的情况下将数据从rdbms移动到hadoop?

isr3a4wc  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(277)

我需要在不使用sqoop的情况下将大量数据从rdbms移动到hadoop。我有2200个表的数据库,使用sqoop将它们导入hdfs是一项非常繁忙的工作,需要花费大量的时间,并且每次点击数据库都会影响性能。我有更多的资源可以从rdbms转移到hdfs。我用hive查询hdfs中的文件。有人能帮我找到更有效的方法吗?

ftf50wuq

ftf50wuq1#

您总是可以用任何后端代码来完成它:从数据库读取数据并流式写入hdfs。
然后在您的应用程序配置中,您可以有任何您需要的定制(线程、超时、数据批处理量等)。这是一个非常简单的解决方案。
我们试过一次因为某种原因我不记得了。但大多数情况下,我们使用sqoop,这里没有问题。
您还可以复制数据库(sime类型的副本),除了sqoop作业之外,任何外部系统都不会使用它。所以用户的选择不会影响性能。

相关问题