Hive数据仓库技术与应用

《Hive数据仓库技术与应用》

  • 出版社:中国铁道出版社
  • ISBN:9787113271947
  • 版次:1
  • 商品编码:12742055
  • 品牌:中国铁道出版社
  • 包装:平装
  • 开本:16开
  • 出版时间:2020-09-01
  • 用纸:胶版纸
基本介绍书籍目录点评信息
  • 书籍内容

    本书是大数据技术与应用专业校企合作系列教材之一,采用模块化的编写思路,内容包括Hive概述、环境准备、Hadoop搭建和配置、安装Hive的基础操作、HiveQL的数据定义、HiveQL语句、Hive综合应用7个单元和25个教学任务。每个单元通过学习目标引出单元的教学核心内容,明确教学任务。每个任务的编写分为任务目标、知识学习、任务实施、同步训练4个环节。最后通过单元小结回顾每个单元的学习重点。本书适合作为高职院校软件技术、大数据技术及应用专业,以及计算机类相关专业的教材,也可以作为Hive爱好者的参考用书。

    编辑推荐

    本书采用模块化的编写思路,通过25个任务,介绍Hive的相关技术。每个任务分为任务目标、知识学习、任务实施、同步训练4个环节。

    作者简介

    朱晓彦,安徽工业经济职业技术学院;方明清,珠海城市职业技术学院;李强,珠海城市职业技术学院
  • 单元1 Hive概述1
    任务1.1 Hive的产生背景1
    1 Hive的产生背景2
    2 Hive的发展历史和现状4
    3 Hive与Hadoop4
    任务1.2 Hive的概念9
    1 Hive的系统与部署架构9
    2 Hive与RDBM对比12
    3数据仓库的理解12
    4 Hive的数据模型15
    5 HiveQL与数据存储16
    任务1.3 Hadoop生态与Hive20
    1 Pig20
    2 HBase21
    单元小结25
    单元2 环境准备26
    任务2.1 VMware与SecureCRT Portable26
    1 VMware简介26
    2 VMware的虚拟化27
    任务2.2 JDK的配置37
    1 JDK的简介37
    2 JDK的版本37
    3上传JDK的介质37
    4 tar的解压与压缩37
    任务2.3 免密登录41
    1 免密登录用户41
    2免密登录的优点42
    单元小结46
    单元3 Hadoop搭建和配置47
    任务3.1 Hadoop搭建47
    1上传Hadoop的介质47
    2解压Hadoop压缩包48
    3配置Hadoop的环境变量48
    4配置Hadoop环境变量48
    5修改Hadoop的配置文件49
    6启动Hadoop服务51
    7检查Hadoop的成功52
    任务3.2 Hadoop配置57
    1 Hadoop简介57
    2 MapReduce综述61
    单元小结70
    单元4 安装Hive的基础操作71
    任务4.1 Hive的模式71
    1本地模式72
    2远程模式72
    3内嵌模式73
    任务4.2 安装Hive实验88
    1 Hive简介88
    2 Hive的定义88
    3设计特征88
    4数据存储89
    任务4.3 Hive命令95
    1创建表语句95
    2加载数据96
    3改变表98
    4替换101
    5删除表102
    6分区103
    任务4.4 Hive命令行界面107
    1 CLI选项107
    2变量和属性111
    3在Hive内使用Hadoop的DFS命令112
    任务4.5 数据类型和文件格式114
    1基本数据类型114
    2文件格式116
    3压缩编码119
    4集合数据类型121
    任务4.6 Hive权限管理125
    1开启权限126
    2权限操作128
    任务4.7 Hive常用优化方法137
    1控制Reducer数量137
    2使用Map Join138
    3使用distinct+union all 代替union139
    4解决数据倾斜的通用方法140
    单元小结141
    单元5 HiveQL的数据定义143
    任务5.1 HiveQL的数据定义143
    1 HiveQL的数据定义143
    2 HiveQL和SQL的区别146
    任务5.2 Hive数据库150
    1 Hive的数据库150
    2修改数据库属性151
    任务5.3 修改表157
    1增加、修改和删除表分区157
    2表重命名157
    3增加列157
    4删除或者替换列157
    5修改表属性158
    6修改存储属性158
    7修改表语句158
    单元小结162
    单元6 HiveQL语句163
    任务6.1 SELECT、FROM语句的概念163
    1使用正则表达式来指定列163
    2使用列值进行计算165
    3算术运算符165
    4使用函数168
    5 LIMIT语句169
    6列的别名169
    7 CASE、WHEN、THEN句式169
    8嵌套SELECT语句172
    任务6.2 GROUP BY178
    任务6.3 抽样查询180
    1数据块抽样180
    2分桶表的输入裁剪180
    任务6.4 WHERE语句181
    1谓语操作符182
    2浮点数比较183
    任务6.5 JOIN语句184
    1 JOIN优化185
    2 LEFT OUTER JOIN186
    3 INNER JOIN187
    4 FULL OUTER JOIN189
    5 LEFT SEMIJOIN189
    6 RIGHT OUTER JOIN190
    7 OUTER JOIN190
    8笛卡儿积JOIN191
    9 mapsidejoin192
    单元小结194
    单元7 Hive综合应用195
    任务7.1 Hive和亚马逊网络服务系统(AWS)195
    1弹性MapReduce的优点196
    2注意事项196
    3 EMR上的实例196
    任务7.2 Hive综合案例199
    1 Hive操作演示199
    2交易数据演示207
    单元小结227
    参考文献228
微信公众号

热门文章

更多