Cloudera Hadoop大数据平台实战指南

《Cloudera Hadoop大数据平台实战指南》

对于入门和学习大数据技术的读者来说,大数据技术的生态圈和知识体系过于庞大,可能还没有开始学习就已经陷入众多的陌生名词和泛泛的概念中。本书的切入点明确而清晰,从Hadoop生态系统的明星Cloudera入手,逐步引出各类大数据基础和核心应用框架。本书分为18章,系统介绍Hadoop生态系统大数据相关的知识,包括大数据概述、ClouderaHadoop平台的安装部署、HDFS分布式文件系统、MapReduce计算框架、资源管理调度框架YARN、Hive数据仓库、数据迁移工具Sqoop、分布式数据库HBase、ZooKeeper分布式协调服务、准实时分析系统Impala、日志采集工具Flume、分布式消息系统Kafka、ETL工具Kettle、Spark计算框架等内容,最后给出两个综合实操案例,以巩固前面所学的知识点。本书既适合Hadoop初学者、大数据技术工程师和大数据技术爱好者自学使用,亦可作为高等院校和培训机构大数据相关课程的培训用书。

Hadoop权威指南:大数据的存储与分析(第4版)

《Hadoop权威指南:大数据的存储与分析(第4版)》

  本书结合理论和实践,由浅入深,全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章,第Ⅰ部分介绍Hadoop基础知识,主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发;MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维,主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目,主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例,分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。  本书是一本专业、全面的Hadoop参考书和工具书,阐述了Hadoop生态圈的新发展和应用,程序员可以从中探索海量数据集的存储和分析,管理员可以从中了解Hadoop集群的安装和运维。

Hadoop平台搭建与应用

《Hadoop平台搭建与应用》

本书以任务驱动为主线,围绕企业级应用进行项目任务设计,介绍了平台的本地模式安装、伪分布式模式安装及完全分布式模式安装,并基于Hadoop 2.X生态系统,全面讲解了Hive环境搭建与基本操作、ZooKeeper环境搭建与基本操作、HBase环境搭建与基本操作、Hadoop常用工具组件的安装与应用、集群搭建与管理,以及Hadoop平台应用综合案例等相关知识及操作技能。本书具有实用性和可操作性强、语言精练、通俗易懂等特点,可作为高等院校大数据应用专业、软件技术专业、云计算技术与应用专业的教材,也可作为从事大数据分析、云计算应用等工作的技术人员的参考用书。

Hadoop理论与实践/大数据人工智能系列丛书

《Hadoop理论与实践/大数据人工智能系列丛书》

  《Hadoop理论与实践/大数据人工智能系列丛书》按照高等学校大数据、人工智能课程基本要求,以案例驱动的形式来组织内容,突出该课程的实践性特点。  《Hadoop理论与实践/大数据人工智能系列丛书》主要包含四大部分:Hadoop技术、数据仓库与Hive、Flume分布式日志处理系统、Spark及其生态圈概述。其中,Hadoop技术包括大数据与数据分析、Hadoop生态系统介绍、Hadoop存储、Hadoop计算之MapReduce、Hadoop安全等;数据仓库与Hive包括Hive与数据库的基础知识、Hive的高级特性、Hive优化及案例的应用;Flume分布式日志处理系统包括Flume介绍、Flume使用案例及Flume开发案例的应用;Spark及其生态圈概述包括Spark简介及Spark生态系统详解。  《Hadoop理论与实践/大数据人工智能系列丛书》内容安排合理,层次清晰,通俗易懂,实例丰富,突出理论与实践的结合,可作为各类高等院校人工智能与大数据相关专业的教材,也可供广大程序设计人员参考。

Hadoop集群程序设计与开发

《Hadoop集群程序设计与开发》

本书主要内容包括:第1章初识Hadoop、第2章Hadoop基础、第3章Hadoop开发环境配置与搭建、第4章Hadoop分布式文件系统(HDFS)、第5章资源管理器(Yarn)、第6章MapReduce基础程序设计、第7章MapReduce程序设计、第8章分布式数据库HBase、第9章分布式数据仓库Hive、第10章项目测试与发布

Hadoop构建数据仓库与实战分析

《Hadoop构建数据仓库与实战分析》

本书从Hadoop背景、特性、安装等开始,逐步讲解其配置、解决方案、元数据解析等内容。本书共10章,主要内容包括:Hadoop简介,Hadoop的安装与配置,HDFSHA及解决方案,HDFS元数据解析,Hadoop的元数据备份方案,Hadoop的BackupNode方案,MapReduce设计理念与基本架构,MapReduce编程模型,YARN设计理念与基本架构,YARN基础库。本书可作为高等院校计算机等相关专业的大数据或相关课程的教材,也可供大数据领域的工程技术人员学习、参考。

Spark Streaming实时流式大数据处理实战

《Spark Streaming实时流式大数据处理实战》

本书以翔实的原理讲解和充实的实战代码剖析,全面阐述了SparkStreaming流式处理平台,便于读者能够从入门开始了解搭建Spark平台,在此基础上学习流式处理框架,并动手实践,进行SparkStreaming流式大数据处理,包括与主流平台框架,如Kafka、Redis和ZooKeeper的对接应用等,并介绍了项目实战中的一些开发和调优策略。读者能够通过本书快速搭建Spark平台,并根据自己面临的使用场景快速搭建处理平台,同时能够了解背后的原理,对调优、开发都能起到一定的指导作用。本书适合大数据处理人员,尤其是基于流式大数据处理的人员阅读,本书也可以作为大数据处理人员的常备工具书随时翻阅。

Hadoop大数据挖掘从入门到进阶实战(视频教学版)

《Hadoop大数据挖掘从入门到进阶实战(视频教学版)》

本书采用“理论+实战”的形式编写,全面介绍了Hadoop大数据挖掘的相关知识。本书共分为13章,涵盖的主要内容有:集群及开发环境搭建;快速构建一个Hadoop项目并线上运行;Hadoop套件实战;Hive编程——使用SQL提交MapReduce任务到Hadoop集群;游戏玩家的用户行为分析——特征提取;Hadoop平台管理与维护;Hadoop异常处理解决方案;初识Hadoop核心源码;Hadoop通信机制和内部协议;Hadoop分布式文件系统剖析;ELK实战案例——游戏应用实时日志分析平台;Kafka实战案例——实时处理游戏用户数据;Hadoop拓展——Kafka剖析。本书不但适合刚入门的初学者系统学习Hadoop的各种基础语法和开发技巧,而且也适合有多年开发经验的开发者进阶提高。另外,本书也适合社会培训机构和相关院校作为教材或者教学参考书。

微信公众号

热门文章

更多