将数据从mysql db导入mapr db/hbase的选项

noj0wjuj  于 2021-05-29  发布在  Hadoop
关注(0)|答案(1)|浏览(404)

我在mysql中有一个表,其中包含大约24000000条记录。我需要一种方法将这些数据导入maprdb中具有多个列族的表中。我最初选择sqoop作为导入数据的工具,但是后来发现我不能使用sqoop直接导入数据,因为sqoop还不支持多列族导入。我使用mysql数据库中的sqoop填充了maprfs中的数据。要将这些数据从mapr fs导入具有3列族的mapr db表,我有什么选择?对于批量导入,我有两个选择:
importtsv工具:这可能要求源数据采用tsv格式。但是我使用sqoop从mysql导入的maprfs中的数据似乎是csv格式的。这种方法的标准解决方案是什么?
编写一个自定义的map-reduce程序,将mapr-fs中的数据转换成hfile并加载到mapr-db中。
我只是想确保只有这两个选项可以加载数据。这似乎有点限制,因为这样的要求在任何系统中都是非常基本的。如果自定义map reduce是一种方法,那么一个示例或工作示例将非常有用。

gev0vcfq

gev0vcfq1#

使用hbastoragehandler创建指向maprdb的配置单元表。可以使用sqoop导入配置单元表。
如果您已经下载了数据maprfs。使用hive load命令将数据加载到maprdb。

相关问题