全部 Hadoop Spark MapReduce SparkCore SparkMllib SparkGraphx Pig

《Spark权威指南》

主要内容·大数据技术和Spark概述。·通过实例学习DataFrame、SQL、Dataset等Spark的核心API。·了解Spark的低级API实现，包括RDD以及SQL和DataFrame的执行过程。·了解Spark如何在集群上运行。·Spark集群和应用程序的调试、监控、和调优。·学习Spark强大的流处理引擎——结构化流处理。·学习MLlib并了解如何应用它解决包括分类、推荐，以及其他多种实际问题。

京东

详情

《Spark编程基础（Python版）》

本书以Python作为开发Spark应用程序的编程语言，系统介绍了Spark编程的基础知识。全书共8章，内容包括大数据技术概述、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、SparkSQL、SparkStreaming、StructuredStreaming、SparkMLlib等。

京东

详情

《Spark性能调优与原理分析》

本书主要介绍了Spark运行原理及性能调优的相关实践，从Spark框架内部及外部运行环境等不同角度分析Spark性能调优的过程。第1章介绍了Linux系统中各种监控工具的使用，对CPU、内存、网络、I/O等方面进行介绍，并提供了集群监控报警的解决方案。第2章介绍了Java虚拟机（JVM）的基本知识、垃圾回收机制，以及对JVM运行状态的监控。第3章和第4章介绍了Spark内核架构、任务运行的流程，对各个组件的实现进行了深入的剖析。尤其在Spark内存管理、存储原理、Shuffle阶段，详细介绍了每个实现的细节，这些实现的细节为后期Spark性能调优提供了参数调节的理论依据。第5章介绍了Spark性能调优的详细实践过程，首先介绍了SparkUI和Spark日志的使用，通过这两项可以迅速定位瓶颈问题；然后根据定位的问题，分别从程序调优、资源调优、Shuffle过程调优等不同角度介绍了调优的实践过程。本书在理论部分提供了大量的概念原理图、运行流程图，在实践部分提供了大量的示例。让读者对性能的调节不仅停留在参数调节的层面，而且能理解每个参数的修改对程序的内部运行产生的影响。本书既可以作为Spark开发者的参考用书，也可以作为高等院校计算机与软件相关专业的教材。

京东

详情

《Spark大数据技术与应用》

本书以任务为导向，较为全面地介绍了Spark大数据技术的相关知识。全书共9章，具体内容包括Spark概述；Scala基础；Spark编程；Spark编程进阶；SparkSQL：结构化数据文件处理；SparkStreaming：实时计算框架；SparkGraphX：图计算框架；SparkMLlib：功能强大的算法库；项目案例：餐饮平台菜品智能推荐。本书的大部分章节都包含了实训与课后习题，通过练习和操作实践，帮助读者巩固所学的内容。

京东

详情

《从零开始学Hadoop大数据分析》

本书全面介绍了Hadoop大数据分析的基础知识、14个核心组件模块及4个项目实战案例。为了帮助读者高效、直观地学习，作者特意为本书录制了20小时同步配套教学视频。本书共19章，分为3篇。第1篇Hadoop基础知识，涵盖大数据概述、Hadoop的安装与配置、Hadoop分布式文件系统及基于Hadoop3的HDFS高可用等相关内容；第2篇Hadoop核心技术，涵盖的内容有Hadoop的分布式协调服务——ZooKeeper；分布式离线计算框架——MapReduce；Hadoop的集群资源管理系统——YARN；Hadoop的数据仓库框架——Hive；大数据快速读写——HBase；海量日志采集工具——Flume；Hadoop和关系型数据库间的数据传输工具——Sqoop；分布式消息队列——Kafka；开源内存数据库——Redis；Ambari和CDH；快速且通用的集群计算系统——Spark。第3篇Hadoop项目案例实战，主要介绍了基于电商产品的大数据业务分析系统、用户画像分析、基于个性化的视频推荐系统及电信离网用户挽留4个项目实战案例，以提高读者的大数据项目开发水平。本书内容全面，实用性强，适合作为Hadoop大数据分析与挖掘的入门读物，也可作为Java程序员的进阶读物。另外，本书还特别适合想要提高大数据项目开发水平的人员阅读。对于专业的培训机构和相关院校而言，本书也是一本不可多得的教学用书。

京东

详情

《Spark SQL内核剖析》

SparkSQL是Spark技术体系中较有影响力的应用（Killerapplication），也是SQL-on-Hadoop解决方案中举足轻重的产品。《SparkSQL内核剖析》由11章构成，从源码层面深入介绍SparkSQL内部实现机制，以及在实际业务场景中的开发实践，其中包括SQL编译实现、逻辑计划的生成与优化、物理计划的生成与优化、Aggregation算子和Join算子的实现与执行、Tungsten优化技术、生产环境中的一些改造优化经验等。《SparkSQL内核剖析》不属于入门级教程，需要读者对基本概念有一定的了解。在企业中任职的系统架构师和软件开发人员，以及对大数据、分布式计算和数据库系统实现感兴趣的研究人员，均适合阅读《SparkSQL内核剖析》。

京东

详情

《Spark数据分析：基于Python语言》

本书重点关注Spark项目的基本知识，从Spark核心开始，然后拓展到各种Spark扩展、Spark相关项目、Spark子项目，以及Spark所处的丰富的生态系统里各种别的开源技术，比如Hadoop、Kafka、Cassandra等。

京东

详情

《Hadoop大数据技术开发实战》

本书以Hadoop及其周边框架为主线，介绍了整个Hadoop生态系统主流的大数据开发技术。全书共16章，第1章讲解了VMware中CentOS7操作系统的安装；第2章讲解了大数据开发之前对操作系统集群环境的配置；第3~16章讲解了Hadoop生态系统各框架HDFS、MapReduce、YARN、ZooKeeper、HBase、Hive、Sqoop和数据实时处理系统Flume、Kafka、Storm、Spark以及分布式搜索系统Elasticsearch等的基础知识、架构原理、集群环境搭建，同时包括常用的Shell命令、API操作、源码剖析，并通过实际案例加深对各个框架的理解与应用。通过阅读本书，读者即使没有任何大数据基础，也可以对照书中的步骤成功搭建属于自己的大数据集群并独立完成项目开发。本书可作为Hadoop新手入门的指导书，也可作为大数据开发人员的随身手册以及大数据从业者的参考用书。

京东

详情

《Spark大数据分析技术（Scala版）》

　　《Spark大数据分析技术（Scala版）》系统介绍了Spark大数据技术的相关知识，内容包括Spark概述、Scala基础编程、基于Scala的Spark编程、Windows环境下的Spark综合编程、SparkSQL结构化数据处理、SparkStreaming流计算、SparkGraphX图计算、SparkMLlib机器学习。　　《Spark大数据分析技术（Scala版）》还给出了Spark大数据相关技术的许多编程示例与详细注解。　　《Spark大数据分析技术（Scala版）》可作为高等院校计算机、软件工程、数据科学与大数据技术、智能科学与技术、人工智能等专业的大数据课程教材，也可供相关技术人员参考。

京东

详情

《Spark大数据分析源码解析与实例详解》

本书基于Spark2.3.x、Spark2.4.x系列版本，采用“理论+实践”的形式编写。全书共有90个实例，1个完整项目。第1篇“准备”，包括认识大数据和Spark、安装与配置Spark集群、第1个Spark程序；第2篇“入门”，包括读写分布式数据、处理分布式数据；第3篇“进阶”，包括RDD的高级操作、用SQL语法分析结构化数据、实时处理流式数据；第4篇“高阶”，包括实时处理流式数据、Spark的相关优化；第5篇“商业项目实战”，用Spark的各种组件实现一个学生学情分析商业项目。本书结构清晰、实例丰富、通俗易懂、实用性强，特别适合Spark的初学者和进阶读者作为自学用书。另外，本书也适合社会培训学校作为培训教材，还适合大中专院校的相关专业作为教学参考书。

京东

详情

《Hadoop大数据开发基础》

本书以任务为导向，较为全面地介绍了Hadoop大数据技术的相关知识。全书共6章，具体内容包括Hadoop介绍、Hadoop集群的搭建及配置、Hadoop基础操作、MapReduce编程入门、MapReduce进阶编程、项目案例：电影网站用户性别预测。本书的2～5章包含了实训与课后练习，通过练习和操作实践，帮助读者巩固所学的内容。本书可以作为高校大数据技术类专业的教材，也可作为大数据技术爱好者的自学用书。

京东

详情

《Spark大数据分析实战》

本书基于Spark2.4.x新版本编写，从Spark核心编程语言Scala讲起，涵盖当前整个Spark生态系统主流的大数据开发技术。全书共9章，第1章讲解Scala语言的基础知识，包括IDEA工具的使用等；第2章讲解Spark的主要组件、集群架构原理、集群环境搭建以及Spark应用程序的提交和运行；第3~9章讲解离线计算框架SparkRDD、SparkSQL和实时计算框架Kafka、SparkStreaming、StructuredStreaming以及图计算框架GraphX等的基础知识、架构原理，同时包括常用Shell命令、API操作、内核源码剖析，并通过多个实际案例讲解各个框架的具体应用以及与Hadoop生态系统框架Hive、HBase、Kafka的整合操作。本书内容丰富，以实操案例为主，理论为辅，可作为Spark新手的入门书，也可作为大数据开发人员和从业者的学习用书，还可以作为培训机构或大中专院校的教学用书。

京东

详情

《Spark 深度学习指南》

本书开头部分讲了如何按照深度学习的需求来配置ApacheSpark，以实现不同类型的神经网络，接下来讲述了在分布式环境中实现深度学习涉及的常见和不那么常见的需求。另外，你还将学到Spark中的深度学习代码，这些代码可以复用到其他类似的问题中，或者稍作改动用于略有不同的问题。本书将带你一起用Spark对数据进行分流和聚类，用TensorFlow、Deeplearning4j和Caffe在Spark中实现和部署深度学习模型，例如CNN、RNN和LSTM。学完本书的内容，你将能够在Spark上训练和部署有效的深度学习模型。

京东

详情

《Spark SQL入门与实践指南》

SparkSQL是Spark大数据框架的一部分，支持使用标准SQL查询和HiveQL来读写数据，可用于结构化数据处理，并可以执行类似SQL的Spark数据查询，有助于开发人员更快地创建和运行Spark程序。全书分为4篇，共9章，第一篇讲解了SparkSQL发展历史和开发环境搭建。第二篇讲解了SparkSQL实例，使得读者掌握SparkSQL的入门操作，了解SparkRDD、DataFrame和DataSet，并熟悉DataFrame各种操作。第三篇讲解了基于WiFi探针的商业大数据分析项目，实例中包含数据采集、预处理、存储、利用SparkSQL挖掘数据，一步一步带领读者学习SparkSQL强大的数据挖掘功能。第四篇讲解了SparkSQL优化的知识。本书适合Spark初学者、Spark数据分析人员以及Spark程序开发人员，也适合高校和培训学校相关专业的师生教学参考。

京东

详情

《PySpark机器学习、自然语言处理与推荐系统》

　　使用PySpark构建机器学习模型、自然语言处理应用程序以及推荐系统，从而应对各种业务挑战。该书首先介绍Spark的基础知识及其演进，然后讲解使用PySpark构建传统机器学习算法以及自然语言处理和推荐系统的全部知识点。　　《PySpark机器学习、自然语言处理与推荐系统》阐释如何构建有监督机器学习模型，比如线性回归、逻辑回归、决策树和随机森林，还介绍了无监督机器学习模型，比如K均值和层次聚类。该书重点介绍特征工程，以便使用PySpark创建有用的特征，从而训练机器学习模型。自然语言处理的相关章节将介绍文本处理、文本挖掘以及用于分类的嵌入。　　在阅读完该书后，读者将了解如何使用PySpark的机器学习库构建和训练各种机器学习模型。此外，还将熟练掌握相关的PySpark组件，比如数据获取、数据处理和数据分析，通过使用它们开发数据驱动的智能应用。

京东

详情

《Spark机器学习：核心技术与实践》

本书采用理论与大量实例相结合的方式帮助开发人员掌握使用Spark进行分析和实现机器学习算法。通过这些示例和Spark在各种企业级系统中的应用，帮助读者解锁Spark机器学习算法的复杂性，通过数据分析产生有价值的数据洞察力。

京东

详情

《Hadoop应用开发基础》

Hadoop是一个分布式系统的基础架构，支持对大量数据进行分布式处理，能以高效、可靠的方式完成数据处理。本书围绕Hadoop生态圈技术进行讲解，主要包括Hadoop环境配置、Hadoop分布式文件系统（HDFS）、Hadoop分布式计算框架MapReduce、Hadoop资源调度框架YARN与Hadoop新特性、Hadoop分布式数据库HBase、Oozie工作流调度系统等内容。本书以Linux操作系统为平台，紧密结合实际应用，贯穿了大量实践案例。另外，本书配以多元的学习资源和平台服务，包括参考教案、案例素材下载、学习交流社区等，为读者提供全方位的学习体验。通过系统地学习本书内容和操作实践，读者可以掌握大数据相关技能。本书适合作为高等学校计算机专业大数据等相关课程的教材使用，也适合具有一定Linux、Java开发经验且想从事大数据开发工作的人员自学使用，还适合作为大数据分析与运维人员的参考用书。

京东

详情

《Hadoop权威指南：大数据的存储与分析(第4版)》

　　本书结合理论和实践，由浅入深，全方位介绍了Hadoop这一高性能的海量数据处理和分析平台。全书5部分24章，第Ⅰ部分介绍Hadoop基础知识，主题涉及Hadoop、MapReduce、Hadoop分布式文件系统、YARN、Hadoop的I/O操作。第Ⅱ部分介绍MapReduce,主题包括MapReduce应用开发；MapReduce的工作机制、MapReduce的类型与格式、MapReduce的特性。第Ⅲ部分介绍Hadoop的运维，主题涉及构建Hadoop集群、管理Hadoop。第Ⅳ部分介绍Hadoop相关开源项目，主题涉及Avro、Parquet、Flume、Sqoop、Pig、Hive、Crunch、Spark、HBase、ZooKeeper。第Ⅴ部分提供了三个案例，分别来自医疗卫生信息技术服务商塞纳(Cerner)、微软的人工智能项目ADAM(一种大规模分布式深度学习框架)和开源项目Cascading(一个新的针对MapReduce的数据处理API)。　　本书是一本专业、全面的Hadoop参考书和工具书，阐述了Hadoop生态圈的新发展和应用，程序员可以从中探索海量数据集的存储和分析，管理员可以从中了解Hadoop集群的安装和运维。

京东

详情

《Hadoop大数据开发实战》

本书将大数据技术生态圈主流技术框架的应用与发展、搭建Hadoop大数据分布式系统集群平台、大数据分布式文件系统HDFS（HadoopDistributedFileSystem）、大数据分布式并行计算框架MapReduce、大数据汽车销售数据统计分析项目5大模块分为11章内容进行阐述。具体分布情况如下：第1章是大数据概论，介绍大数据的发展背景及基本概念；第2章是搭建Hadoop分布式集群；第3～6章是HDFS分布式文件系统入门、HDFS接口、HDFS的运行机制、HadoopI/O流操作；第7～10章是初识MapReduce编程模型、MapReduce应用编程开发、MapReduce编程案例、MapReduce运行机制与YARN平台；第11章是汽车销售数据统计分析项目实战。本书将理论与实践相结合，介绍了大数据的核心技术，并通过介绍一个企业的开发项目，深入讲解大数据技术在实际工作中的应用。本书是为所有热爱大数据、打算从事大数据相关工作的读者而编写的，适合有Java编程基础的学习者参考使用，也适合作为高等院校、培训机构的大数据技术教材。

京东

详情

《Spark：原理、机制及应用》

　　本书是一本以Spark1.4为基础，详细介绍了Spark技术的概况、内部机制和企业界的应用情况。作者结合国内外众多资料和项目经验，力求深入浅出地讲解Spark技术的生态应用和发展状况，此外还选取了SparkSummit中的典型案例进行解析，为读者全面展现Spark技术在企业界的应用情况。本书适合Spark技术初学者、Spark技术爱好者、Spark运维工程师和开源软件爱好者，也可以作为相关培训学校和大专院校相关专业的教学用书。

京东

详情

《Spark海量数据处理技术详解与平台实战》

本书基于Spark发行版2.4.4写作而成，包含大量的实例与一个完整项目，层次分明，循序渐进。全书分为3部分，涵盖了技术理论与实战，读者可以从实战中巩固学习到的知识。第一部分主要围绕BDAS（伯克利数据分析栈），不仅介绍了如何开发Spark应用的基础内容，还介绍了StructuredStreaming、Spark机器学习、Spark图挖掘、Spark深度学习等高级主题，此外还介绍了Alluxio系统。第二部分实现了一个企业背景调查系统，比较新颖的是，该系统借鉴了数据湖与Lambda架构的思想，涵盖了批处理、流处理应用开发，并加入了一些开源组件来满足需求，既是对本书第一部分很好的巩固，又完整呈现了一个实时大数据应用的开发过程。第三部分是对全书的总结和展望。本书适合准备学习Spark的开发人员和数据分析师，以及准备将Spark应用到实际项目中的开发人员和管理人员阅读，也适合计算机相关专业的高年级本科生和研究生学习和参考，对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。

京东

详情

《Hadoop数据仓库实战》

本书以Hive为开发平台，主要介绍了如何使用HiveQL来查询和分析存储在Hadoop分布式文件系统上的大数据集合，具体内容包括Hive入门、Hive数据库及表操作、Hive元数据、Hive高级操作、Hive函数与Streaming、Hive视图与索引、Hive调优、Hive与HBase集成、数据迁移框架Sqoop等。本书介绍的每个任务都运用了大量案例，紧密结合实际应用，融入了含金量十足的开发经验。在此基础上，本书通过丰富的练习和操作实践，帮助读者巩固所学的内容。本书配以多元的学习资源和支持服务，包括视频、案例素材、学习社区等，为读者提供全方位的学习体验。本书适合作为计算机、大数据等相关专业的教材，也适合具有一定Linux或Java开发基础且想从事大数据开发的人员阅读学习，还可以作为大数据分析与运维人员的参考用书。

京东

详情

《Scala和Spark大数据分析函数式编程、数据流和机器学习》

主要内容◆理解Scala的面向对象和函数式编程概念◆深入理解Scala的集合API◆学习RDD和数据帧等Spark核心概念◆使用SparkSQL和GraphX分析结构化与非结构化数据◆使用Spark结构化流来开发具备可扩展性和容错能力的流式应用◆学习分类、回归、降维和推荐系统等机器学习最佳实践，以便使用SparkML和SparkMLlib中的流行算法来建立预测模型◆建立聚类模型，以便聚类大量数据◆理解Spark应用的调优、调试和监控技术◆使用独立服务器模式、Mesos和YARN模式在集群上部署Spark应用

京东

详情

《Hadoop大数据处理技术基础与实践（第2版）（微课版）》

全书共有12章，从Hadoop概述开始，介绍了Hadoop的安装与配置管理，并对Hadoop的生态体系架构进行了介绍，包括HDFS技术、YARN技术、MapReduce技术、HadoopI/O操作、海量数据库技术HBase、ZooKeeper技术、分布式数据仓库技术Hive、分布式数据分析工具Pig，以及数据迁移工具Sqoop，最后对大数据实时处理技术做了简单介绍，旨在让读者了解当前其他的大数据处理技术。本书除了介绍Hadoop的理论外，还介绍了如何使用各组件，但因为只是介绍基础的使用，没有涉及底层的高级内容，所以本书只是起引导作用，旨在让读者了解Hadoop并能够使用Hadoop的基本功能，并不是学习Hadoop的完全手册。本书适合作为高等院校、高等职业院校大数据、物联网、云计算及其他计算机相关专业的教材，也可供云计算与大数据技术相关的培训班使用。

京东

详情

《Spark实时大数据分析——基于Spark Streaming框架》

本书详细阐述了与Spark实时大数据分析以及SparkStreaming框架相关的基本解决方案，主要包括大数据漫游指南，实时RDD，高速流：链接外部数据源，边界效应，实时ETL和分析技术，大规模机器学习，云、Lambda及Python等内容。此外，本书还提供了丰富的示例以及代码，以帮助读者进一步理解相关方案的实现过程。本书适合作为高等院校计算机及相关专业的教材和教学参考书，也可作为相关开发人员的自学教材和参考手册。

京东

详情

《Hadoop构建数据仓库实践》

　　本书讲述在流行的大数据分布式存储和计算平台Hadoop上设计实现数据仓库，将传统数据仓库建模与SQL开发的简单性与大数据技术相结合，快速、高效地建立可扩展的数据仓库及其应用系统。　　本书内容包括数据仓库、Hadoop及其生态圈的相关概念，使用Sqoop从关系数据库全量或增量抽取数据，使用HIVE进行数据转换和装载处理，使用Oozie调度作业周期性执行，使用Impala进行快速联机数据分析，使用Hue将数据可视化，以及数据仓库中的渐变维（SCD）、代理键、角色扮演维度、层次维度、退化维度、无事实的事实表、迟到的事实、累积的度量等常见问题在Hadoop上的处理等。　　本书适合数据库管理员、大数据技术人员、Hadoop技术人员、数据仓库技术人员，也适合高等院校和培训机构相关专业的师生教学参考。

京东

详情

《Spark Streaming技术内幕及源码剖析》

　　本书以大数据处理引擎Spark的稳定版本1.6.x为基础，从应用案例、原理、源码、流程、调优等多个角度剖析Spark上的实时计算框架SparkStreaming。在勾勒出SparkStreaming架构轮廓的基础上，从基本源码开始进行剖析，由浅入深地引导已具有Spark和SparkStreaming基础技术知识的读者进行SparkStreaming的进阶学习，理解SparkStreaming的原理和运行机制，为流数据处理的决策和应用提供了技术参考；结合SparkStreaming的深入应用的需要，对SparkStreaming的性能调优进行了分析，也对SparkStreaming功能的改造和扩展提供了指导。　　本书适合大数据领域CTO、架构师、高级软件工程师，尤其是Spark领域已有SparkStreaming基础知识的从业人员阅读，也可供需要深入学习Spark、SparkStreaming的高校研究生和高年级本科生参考。

京东

详情

《Hadoop集群程序设计与开发》

本书主要内容包括：第1章初识Hadoop、第2章Hadoop基础、第3章Hadoop开发环境配置与搭建、第4章Hadoop分布式文件系统（HDFS）、第5章资源管理器（Yarn）、第6章MapReduce基础程序设计、第7章MapReduce程序设计、第8章分布式数据库HBase、第9章分布式数据仓库Hive、第10章项目测试与发布

京东

详情

《Elasticsearch集成Hadoop最佳实践》

　　ElasticSearch是一个开源的分布式搜索引擎，具有高可靠性，支持非常多的企业级搜索用例。ElasticsearchHadoop作为一个完美的工具，用来连接Elasticsearch和Hadoop的生态系统。通过Kibana技术，ElasticsearchHadoop很容易从Hadoop生态系统中获得大数据分析的结果。　　本书全面介绍ElasticsearchHadoop技术用于大数据分析以及数据可视化的方法。内容共分7章，包括Hadoop、Elasticsearch、Marvel和Kibana安装；通过编写MapReduce作业，把Hadoop数据导入Elasticsearch；全面分析Elasticsearch本质，如全文本搜索分析、查询、筛选器和聚合；使用Kibana创建各种可视化和交互式仪表板，并使用Storm和Elasticsearch分类现实世界的流数据以及相关的其他主题。　　本书适合从事大数据分析人员、大数据应用开发的人员参考，也适合高等院校及培训机构相关专业的师生教学参考。

京东

详情

《Spark实战》

本书介绍了Spark应用程序及更高级应用的工作流程，主要从使用角度进行了描述，每个具体内容都有对应的代码。本书涵盖了ApacheSpark和它丰富的API，构成Spark的组件（包括SparkSQL、SparkStreaming、SparkMLlib和SparkGraphX），在Sparkstandalone、HadoopYARN以及Mesosclusters上运行Spark应用程序的部署和安装。通过对应的实例全面、详细地介绍了整个Spark实战开发的流程。*后，还介绍了Spark的高级应用，包括Spark流应用程序及可扩展和快速的机器学习框架H2O。本书可以作为高等院校计算机、软件工程、数据科学与大数据技术等专业的大数据课程材料，可用于指导Spark编程实践，也可供相关技术人员参考使用。

京东

详情

热门标签

热门文章