Sqoop概述

x33g5p2x  于2021-03-14 发布在 Sqoop  
字(1.0k)|赞(0)|评价(0)|浏览(235)

一、sqoop的简单概论

[info] (1)Sqoop产生的原因

A. 多数使用hadoop技术的处理大数据业务的企业,有大量的数据存储在关系型数据中。

B. 由于没有工具支持,对hadoop和关系型数据库之间数据传输是一个很困难的事。

依据以上的原因sqoop产生的。

[info] (2)Sqoop的介绍

sqoop是连接关系型数据库和hadoop的桥梁,主要有两个方面(导入和导出):

A. 将关系型数据库的数据导入到Hadoop 及其相关的系统中,如 Hive和HBase

B. 将数据从Hadoop 系统里抽取并导出到关系型数据库

:-:

[info] (3)Sqoop的优点

A. 可以高效、可控的利用资源,可以通过调整任务数来控制任务的并发度。

B. 可以自动的完成数据映射和转换。由于导入数据库是有类型的,它可以自动根据数据库中的类型转换到Hadoop 中,当然用户也可以自定义它们之间的映射关系

C.支持多种数据库,如mysql,orcale等数据库

[info] (4) Sqoop工作的机制

将导入或导出命令翻译成MapReduce程序来实现,在翻译出的MapReduce 中主要是对InputFormat和OutputFormat进行定制

[info] (5)sqoop版本介绍:Sqoop1和Sqoop2

A. sqoop的版本sqoop1和sqoop2是两个不同的版本,它们是完全不兼容的

B. 版本划分方式: apache1.4.X之后的版本是1,1.99.0之上的版本是2

C. Sqoop2相比Sqoop1的优势有:

  1. 它引入的sqoop Server,便于集中化的管理Connector或者其它的第三方插件;
  2. 多种访问方式:CLI、Web UI、REST API;
  3. 它引入了基于角色的安全机制,管理员可以在sqoop Server上配置不同的角色。

D. Sqoop1和sqoop2优缺点:

sqoop1优点:架构部署简单

sqoop1缺点:命令行方式容易出错,格式紧耦合,无法支持所有数据类型,安全机制不够完善,例如密码暴漏,安装需要root权限,connector必须符合JDBC模型

sqoop2优点:多种交互方式,命令行,web UI,rest API,conncetor集中化管理,所有的链接安装在sqoop server上,完善权限管理机制,connector规范化,仅仅负责数据的读写

sqoop2缺点:sqoop2的缺点,架构稍复杂,配置部署更繁琐

相关文章

热门文章

更多