书籍内容
本书从Hadoop背景、特性、安装等开始,逐步讲解其配置、解决方案、元数据解析等内容。本书共10章,主要内容包括:Hadoop简介,Hadoop的安装与配置,HDFS HA及解决方案,HDFS元数据解析,Hadoop的元数据备份方案,Hadoop的BackupNode方案,MapReduce设计理念与基本架构,MapReduce编程模型,YARN设计理念与基本架构,YARN基础库。本书可作为高等院校计算机等相关专业的大数据或相关课程的教材,也可供大数据领域的工程技术人员学习、参考。
前言/序言
前 言
Hadoop是一个由Apache基金会开发的分布式计算平台。用户可以在不了解分布式底层细节的情况下开发分布式程序,充分利用集群的优势实现高速运算和存储。
Hadoop实现了一个分布式文件系统(Hadoop Distributed File System,HDFS)。HDFS具有高容错性的特点,可以用来设计、部署在价格低廉的硬件上,同时它可提供高吞吐量来访问应用程序中的数据,适合有超大数据集的应用程序。HDFS放宽了可移植操作系统接口(Portable Operating System Interface of Unix,POSIX)的要求,可以用流的形式访问文件系统中的数据。
本书从Hadoop背景、特性、安装等开始,逐步讲解其配置、解决方案、元数据解析等内容。第1、2章对Hadoop的历史、功能与应用、体系结构等方面进行简要介绍,并且详细地介绍在Linux、Windows等多个操作系统环境下安装与配置Hadoop集群的步骤,便于读者借鉴。从第3章开始,依次讲解HDFS HA及解决方案、HDFS元数据解析、Hadoop的元数据备份方案、Hadoop的BackupNode方案等,主要结合具体实例,使读者对Hadoop有一定了解。从第7章开始,进一步讲解MapReduce及YARN的相关知识,包括MapReduce设计理念与基本架构、MapReduce编程模型、YARN设计理念与基本架构、YARN基础库等。
本书结合实例对Hadoop进行讲解,从Hadoop基础知识着手,引导读者了解及搭建基本环境,由浅入深地引导读者开展Hadoop的相关学习。本书结合实例,给出详细的代码,实例代码演示中所涉及的环境在相关章节中有多处说明,读者可根据自身实际情况进行参考。
由于写作仓促且作者水平有限,本书难免存在不足,恳请各位专家、学者、读者批评指正。
作 者
2019年4月
作者简介
小牛学堂是在线教育平台,网站内建设有在线学习行业课程专栏体系,通过用户基础推荐合适的学习方案,关联推荐课程,并通过大数据行为轨迹定位进行学员学习跟进。主要提供以SAP项目、云计算及大数据项目、Unity3D游戏开发项目的在线学习,直播互动,免费学习课程等服务。