从零开始学Hadoop大数据分析

《从零开始学Hadoop大数据分析》

  • 出版社:机械工业出版社
  • ISBN:9787111619314
  • 版次:1
  • 商品编码:12566722
  • 品牌:机工出版
  • 包装:平装
  • 开本:16开
  • 出版时间:2019-03-01
  • 用纸:胶版纸
  • 页数:368
基本介绍书籍目录点评信息
  • 书籍内容

    本书全面介绍了Hadoop大数据分析的基础知识、14个核心组件模块及4个项目实战案例。为了帮助读者高效、直观地学习,作者特意为本书录制了20小时同步配套教学视频。
    本书共19章,分为3篇。第1篇Hadoop基础知识,涵盖大数据概述、Hadoop的安装与配置、Hadoop分布式文件系统及基于Hadoop 3的HDFS高可用等相关内容;第2篇Hadoop核心技术,涵盖的内容有Hadoop的分布式协调服务——ZooKeeper;分布式离线计算框架——MapReduce;Hadoop的集群资源管理系统——YARN;Hadoop的数据仓库框架——Hive;大数据快速读写——HBase;海量日志采集工具——Flume;Hadoop和关系型数据库间的数据传输工具——Sqoop;分布式消息队列——Kafka;开源内存数据库——Redis;Ambari和CDH;快速且通用的集群计算系统——Spark。第3篇Hadoop项目案例实战,主要介绍了基于电商产品的大数据业务分析系统、用户画像分析、基于个性化的视频推荐系统及电信离网用户挽留4个项目实战案例,以提高读者的大数据项目开发水平。
    本书内容全面,实用性强,适合作为Hadoop大数据分析与挖掘的入门读物,也可作为Java程序员的进阶读物。另外,本书还特别适合想要提高大数据项目开发水平的人员阅读。对于专业的培训机构和相关院校而言,本书也是一本不可多得的教学用书。

    编辑推荐

    适读人群 :Hadoop初学者、大数据技术爱好者、全面学习Hadoop核心技术的人员、大数据开发项目经理、高校与培训班学生
    资深专家12年一线开发经验总结,业内7位大咖点评力荐
    采用“理论讲解→环境搭建→项目案例实战”的科学编排体系
    赠送20小时(118段)高质量、高价值大数据核心技术配套教学视频
    全面涵盖Hadoop的14个基础组件:HDFS、ZooKeeper 、MapReduce、YARN、Hive、HBase、Flume、Sqoop、Kafka、Redis、Spark及Mahout等
    详解30个中小案例及4个项目实战案例,提高读者的实际动手能力
    赠送教学PPT,方便教学与学习
    7位重量级大咖力荐:
    见知集团董事长 张之戈
    中软国际CTO 徐建民
    慧科集团研究院院长 陈滢
    微软高级架构师 韩亮
    51CTO学院总监 张宝龙
    CDA数据分析师协会理事 赵坚毅
    大唐网络副总裁 张文杰
    本书内容速览:
    Hadoop基础知识
    初识Hadoop
    Hadoop的安装与配置
    Hadoop分布式文件系统
    基于Hadoop 3的HDFS高可用
    Hadoop核心技术
    Hadoop的分布式协调服务——ZooKeeper
    分布式离线计算框架——MapReduce
    Hadoop的集群资源管理系统——YARN
    Hadoop的数据仓库框架——Hive
    大数据快速读写——HBase
    海量日志采集工具——Flume
    Hadoop和关系型数据库间的数据传输工具——Sqoop
    分布式消息队列——Kafka
    开源的内存数据库——Redis
    Ambari和CDH
    快速且通用的集群计算系统——Spark
    Hadoop项目案例实战
    基于电商产品的大数据业务分析系统实战
    用户画像分析实战
    基于个性化的视频推荐系统实战
    电信离网用户挽留实战
    本书超值配套资源:
    20小时配套教学视频
    案例源代码文件
    教学PPT
    本书4大实战案例
    基于电商产品的大数据业务分析系统实战
    用户画像分析实战
    基于个性化的视频推荐系统实战
    电信离网用户挽留实战

    作者简介

    温春水 毕业于中国人民大学,获硕士学位。历任森途国信新工科研究院院长、大唐网络和三点一刻大数据技术总监,负责大数据技术架构。12年以上的IT从业经验,其中从事IT培训超过5年,直接授课学员超过3万人。受邀为燕山石化和中国石油等企业完成Python及大数据技术等企业内训;受聘面向哈尔滨工业大学、南开大学、天津大学、华南农业大学、山东科技大学、北京交通大学、西安交通大学、天津师范大学和北京航空航天大学等高校的本科生及研究生讲授项目管理、需求分析、软件体系设计和项目开发等课程。
    毕洁馨 亚信科技高级开发工程师。参与过北京联通看板中心及专线透明化建设,另外还参与过相关公司的门店客流分析平台和分布式网络爬虫等多个项目的开发工作。目前致力于大数据和人工智能方向的前沿技术研究。
  • 前言 第1篇 Hadoop基础知识 第1章 初识Hadoop 2 1.1 大数据初探 2 1.1.1 大数据技术 2 1.1.2 大数据技术框架 3 1.1.3 大数据的特点 3 1.1.4 大数据在各个行业中的应用 4 1.1.5 大数据计算模式 4 1.1.6 大数据与云计算、物联网的关系 4 1.2 Hadoop简介 5 1.2.1 Hadoop应用现状 6 1.2.2 Hadoop简介与意义 6 1.3 小结 6 第2章 Hadoop的安装与配置 7 2.1 虚拟机的创建 7 2.2 安装Linux系统 10 2.3 配置网络信息 11 2.4 克隆服务器 12 2.5 SSH免密码登录 13 2.6 安装和配置JDK 15 2.6.1 上传安装包 15 2.6.2 安装JDK 16 2.6.3 配置环境变量 16 2.7 Hadoop环境变量配置 16 2.7.1 解压缩Hadoop压缩包 17 2.7.2 配置Hadoop的bin和sbin文件夹到环境变量中 17 2.7.3 修改/etc/hadoop/hadoop-env.sh 17 2.8 Hadoop分布式安装 17 2.8.1 伪分布式安装 17 2.8.2 完全分布式安装 19 2.9 小结 21 第3章 Hadoop分布式文件系统 22 3.1 DFS介绍 22 3.1.1 什么是DFS 22 3.1.2 DFS的结构 22 3.2 HDFS介绍 23 3.2.1 HDFS的概念及体系结构 23 3.2.2 HDFS的设计 23 3.2.3 HDFS的优点和缺点 24 3.2.4 HDFS的执行原理 24 3.2.5 HDFS的核心概念 25 3.2.6 HDFS读文件流程 27 3.2.7 HDFS写文件流程 28 3.2.8 Block的副本放置策略 29 3.3 Hadoop中HDFS的常用命令 30 3.3.1 对文件的操作 30 3.3.2 管理与更新 31 3.4 HDFS的应用 31 3.4.1 基于Shell的操作 31 3.4.2 基于Java API的操作 33 3.4.3 创建文件夹 34 3.4.4 递归显示文件 34 3.4.5 文件上传 35 3.4.6 文件下载 35 3.5 小结 36 第4章 基于Hadoop 3的HDFS高可用 37 4.1 Hadoop 3.x的发展 37 4.1.1 Hadoop 3新特性 37 4.1.2 Hadoop 3 HDFS集群架构 38 4.2 Hadoop 3 HDFS完全分布式搭建 39 4.2.1 安装JDK 40 4.2.2 配置JDK环境变量 40 4.2.3 配置免密码登录 40 4.2.4 配置IP和主机名字映射关系 41 4.2.5 SSH免密码登录设置 41 4.2.6 配置Hadoop 3.1.0 42 4.3 什么是HDFS高可用 47 4.3.1 HDFS高可用实现原理 47 4.3.2 HDFS高可用实现 48 4.4 搭建HDFS高可用 50 4.4.1 配置ZooKeeper 50 4.4.2 配置Hadoop配置文件 52 4.4.3 将配置文件复制到其他节点上 54 4.4.4 启动JN节点 54 4.4.5 格式化 55 4.4.6 复制元数据到node2节点上 55 4.4.7 格式化ZKFC 55 4.4.8 启动集群 56 4.4.9 通过浏览器查看集群状态 56 4.4.10 高可用测试 57 4.5 小结 58 第2篇 Hadoop核心技术 第5章 Hadoop的分布式协调服务——ZooKeeper 60 5.1 ZooKeeper的核心概念 60 5.1.1 Session会话机制 60 5.1.2 数据节点、版本与Watcher的关联 61 5.1.3 ACL策略 61 5.2 ZooKeeper的安装与运行 61 5.3 ZooKeeper服务器端的常用命令 63 5.4 客户端连接ZooKeeper的相关操作 64 5.4.1 查看ZooKeeper常用命令 64 5.4.2 connect命令与ls命令 65 5.4.3 create命令——创建节点 65 5.4.4 get命令——获取数据与信息 66 5.4.5 set命令——修改节点内容 66 5.4.6 delete命令——删除节点 67 5.5 使用Java API访问ZooKeeper 67 5.5.1 环境准备与创建会话实例 68 5.5.2 节点创建实例 69 5.5.3 Java API访问ZooKeeper实例 70 5.6 小结 73 第6章 分布式离线计算框架——MapReduce 74 6.1 MapReduce概述 74 6.1.1 MapReduce的特点 74 6.1.2 MapReduce的应用场景 75 6.2 MapReduce执行过程 76 6.2.1 单词统计实例 76 6.2.2 MapReduce执行过程 77 6.2.3 MapReduce的文件切片Split 77 6.2.4 Map过程和Reduce过程 78 6.2.5 Shuffle过程 78 6.3 MapReduce实例 79 6.3.1 WordCount本地测试实例 79 6.3.2 ETL本地测试实例 84 6.4 温度排序实例 86 6.4.1 时间和温度的封装类MyKey.Java 87 6.4.2 Map任务MyMapper.java 88 6.4.3 数据分组类MyGroup.Java 89 6.4.4 温度排序类MySort.java 89 6.4.5 数据分区MyPartitioner.java 90 6.4.6 Reducer任务MyReducer.java 90 6.4.7 主函数RunJob.java 91 6.5 小结 94 第7章 Hadoop的集群资源管理系统——YARN 95 7.1 为什么要使用YARN 95 7.2 YARN的基本架构 96 7.2.1 ResourceManager进程 96 7.2.2 ApplicationMaster和NodeManager 97 7.3 YARN工作流程 97 7.4 YARN搭建 98 7.5 小结 100 第8章 Hadoop的数据仓库框架——Hive 101 8.1 Hive的理论基础 101 8.1.1 什么是Hive 101 8.1.2 Hive和数据库的异同 102 8.1.3 Hive设计的目的与应用 104 8.1.4 Hive的运行架构 104 8.1.5 Hive的执行流程 105 8.1.6 Hive服务 106 8.1.7 元数据存储Metastore 106 8.1.8 Embedded模式 107 8.1.9 Local模式 108 8.1.10 Remote模式 109 8.2 Hive的配置与安装 109 8.2.1 安装MySQL 110 8.2.2 配置Hive 112 8.3 Hive表的操作 113 8.3.1 创建Hive表 114 8.3.2 导入数据 114 8.4 表的分区与分桶 115 8.4.1
  • 精彩书评

    这本书概念清晰,讲解通俗易懂,实例非常丰富,是一本适合通过实践的方式学习大数据的书籍。尤其是书中的商业案例,极具参考价值,相信每位读者都能从中汲取相应的知识与启发。
    ——见知集团董事长 张之戈
    本书是一本不可多得的大数据实践类书籍。从大数据分布式环境的搭建,到HDFS、MapReduce、Hive、Zookeeper、Flume、Kafka和Redis等技术,书中均有涉猎,并延伸到了大数据的商业应用案例。读完本书,你可以全面掌握大数据的核心技术及具体应用。
    ——中软国际CTO 徐建民
    作为一本大数据专业书籍,本书倾向于动手实践,通过大量的实例代码分析,帮助读者理解和实践。另外,作者还专门录制了大数据核心技术教学视频,这必将极大地提高读者的学习效率。
    ——慧科集团研究院院长 陈滢
    本书注重实践,手把手带领读者学习,可读性很强,适合小白阅读,非常棒!
    ——微软高级架构师 韩亮
    本书由浅入深地介绍了大数据相关技术,并围绕相关技术给出了大量的代码实例,将理论知识应用于项目开发实践,而且讲解非常通俗易懂,是一本的Hadoop大数据分析学习手册。
    ——51CTO学院总监 张宝龙
    这是我看过的最接地气的大数据实践类图书。无论是对于想要学习大数据的入门者,还是对于有一定大数据开发经验的从业者,本书都极具参考价值。
    ——CDA数据分析师协会理事 赵坚毅
    这本书很接地气,非常适合想通过动手实践学习大数据的人员。作者将教会你如何在短时间内上手大数据,并编写出可以实际运行的大数据项目。
    ——大唐网络副总裁 张文杰
微信公众号

热门文章

更多