Spark大数据分析 源码解析与实例详解

《Spark大数据分析 源码解析与实例详解》

本书基于Spark2.3.x、Spark2.4.x系列版本,采用“理论+实践”的形式编写。全书共有90个实例,1个完整项目。第1篇“准备”,包括认识大数据和Spark、安装与配置Spark集群、第1个Spark程序;第2篇“入门”,包括读写分布式数据、处理分布式数据;第3篇“进阶”,包括RDD的高级操作、用SQL语法分析结构化数据、实时处理流式数据;第4篇“高阶”,包括实时处理流式数据、Spark的相关优化;第5篇“商业项目实战”,用Spark的各种组件实现一个学生学情分析商业项目。本书结构清晰、实例丰富、通俗易懂、实用性强,特别适合Spark的初学者和进阶读者作为自学用书。另外,本书也适合社会培训学校作为培训教材,还适合大中专院校的相关专业作为教学参考书。

Spark 深度学习指南

《Spark 深度学习指南》

本书开头部分讲了如何按照深度学习的需求来配置ApacheSpark,以实现不同类型的神经网络,接下来讲述了在分布式环境中实现深度学习涉及的常见和不那么常见的需求。另外,你还将学到Spark中的深度学习代码,这些代码可以复用到其他类似的问题中,或者稍作改动用于略有不同的问题。本书将带你一起用Spark对数据进行分流和聚类,用TensorFlow、Deeplearning4j和Caffe在Spark中实现和部署深度学习模型,例如CNN、RNN和LSTM。学完本书的内容,你将能够在Spark上训练和部署有效的深度学习模型。

Spark:大数据集群计算的生产实践

《Spark:大数据集群计算的生产实践》

本书针对spark从验证性环境迁移到实际生产环境时会遇到的各种问题给出了实际的帮助,涵盖了开发及维护生产级Spark应用的各种方法、组件与有用实践。全书分为6章,第1~2章帮助读者深入理解Spark的内部机制以及它们在生产流程中的含义;第3章和第5章阐述了针对配置参数的法则和权衡方案,用来调优Spark,改善性能,获得高可用性和容错性;第4章专门讨论Spark应用中的安全问题;第6章则全面介绍生产流,以及把一个应用迁移到一个生产工作流中时所需要的各种组件,同时对Spark生态系统进行了梳理。

Spark编程基础(Python版)

《Spark编程基础(Python版)》

本书以Python作为开发Spark应用程序的编程语言,系统介绍了Spark编程的基础知识。全书共8章,内容包括大数据技术概述、Spark的设计与运行原理、Spark环境搭建和使用方法、RDD编程、SparkSQL、SparkStreaming、StructuredStreaming、SparkMLlib等。

大数据技术原理与应用(第2版)

《大数据技术原理与应用(第2版)》

(1)概念篇:介绍当前紧密关联的*新IT领域技术云计算、大数据和物联网。(2)大数据存储与管理篇:介绍分布式数据存储的概念、原理和技术,包括HDFS、HBase、NoSQL数据库、云数据库。(3)大数据处理与分析篇:介绍MapReduce分布式编程框架、基于内存的分布式计算框架Spark、图计算、流计算、数据可视化。(4)大数据应用篇:介绍基于大数据技术的推荐系统。

Spark大数据处理与分析

《Spark大数据处理与分析》

  《Spark大数据处理与分析》对Spark应用程序开发的基本概念和技术进行了系统的介绍,并通过简单易懂的实例说明了其具体实现过程。通过《Spark大数据处理与分析》的学习,读者可以掌握Spark编程技术的基本概念、原理和编程方法,通过灵活的实践运用,能够进行应用程序的实际开发。  《Spark大数据处理与分析》适用于Spark程序设计的初学者,可作为高等学校计算机专业的教材,也可作为Spark程序设计的培训教材。

Spark大数据分析:核心概念、技术及实践

《Spark大数据分析:核心概念、技术及实践》

本书是关于大数据和Spark的一个简明手册。它将助你学习如何用Spark来完成很多大数据分析任务,其中覆盖了高效利用Spark所需要知道的重要主题:如何使用SparkShell进行交互式数据分析、如何编写Spark应用、如何在Spark中对大规模数据进行交互分析、如何使用SparkStreaming处理高速数据流、如何使用Spark进行机器学习、如何使用Spark进行图处理、如何使用集群管理员部署Spark、如何监控Spark应用等。本书还对其他配合Spark一起使用的大数据技术进行了介绍,包括HDFS、Avro、Parquet、Kafka、Cassandra、HBase、Mesos等。本书也对机器学习和图的概念进行了介绍。

Spark大数据分析技术(Scala版)

《Spark大数据分析技术(Scala版)》

  《Spark大数据分析技术(Scala版)》系统介绍了Spark大数据技术的相关知识,内容包括Spark概述、Scala基础编程、基于Scala的Spark编程、Windows环境下的Spark综合编程、SparkSQL结构化数据处理、SparkStreaming流计算、SparkGraphX图计算、SparkMLlib机器学习。  《Spark大数据分析技术(Scala版)》还给出了Spark大数据相关技术的许多编程示例与详细注解。  《Spark大数据分析技术(Scala版)》可作为高等院校计算机、软件工程、数据科学与大数据技术、智能科学与技术、人工智能等专业的大数据课程教材,也可供相关技术人员参考。

Spark大数据分析实战

《Spark大数据分析实战》

本书基于Spark2.4.x新版本编写,从Spark核心编程语言Scala讲起,涵盖当前整个Spark生态系统主流的大数据开发技术。全书共9章,第1章讲解Scala语言的基础知识,包括IDEA工具的使用等;第2章讲解Spark的主要组件、集群架构原理、集群环境搭建以及Spark应用程序的提交和运行;第3~9章讲解离线计算框架SparkRDD、SparkSQL和实时计算框架Kafka、SparkStreaming、StructuredStreaming以及图计算框架GraphX等的基础知识、架构原理,同时包括常用Shell命令、API操作、内核源码剖析,并通过多个实际案例讲解各个框架的具体应用以及与Hadoop生态系统框架Hive、HBase、Kafka的整合操作。本书内容丰富,以实操案例为主,理论为辅,可作为Spark新手的入门书,也可作为大数据开发人员和从业者的学习用书,还可以作为培训机构或大中专院校的教学用书。

Spark大数据分析实战

《Spark大数据分析实战》

  这是一本根据应用场景讲解如何通过Spark进行大数据分析与应用构建的著作,以实战为导向。作者结合典型应用场景,抽象出通用与简化后的模型,以便于读者能举一反三,直接应用。  本书首先从技术层面讲解了Spark的机制、生态系统与开发相关的内容;然后从应用角度讲解了日志分析、推荐系统、情感分析、协同过滤、搜索引擎、社交网络分析、新闻数据分析等多个常见的大数据场景下的数据分析。在每个场景中,首先是对场景进行抽象与概括,然后将Spark融入其中构建数据分析算法与应用,最后结合其他开源系统或工具构建更为丰富的数据分析流水线。

深入理解Spark:核心思想与源码分析

《深入理解Spark:核心思想与源码分析》

    本书对Spark源代码进行了全面而深入的分析,旨在为Spark的优化、定制和扩展提供原理性的指导。阿里巴巴集团专家鼎力推荐,阿里巴巴资深Java开发和大数据专家撰写。本书对Spark的核心模块、部署和协作模块的实现原理与使用技巧进行了深入的剖析与解读。  本书分为三篇:  准备篇(第1~2章),介绍了Spark的环境搭建、设计理念与基本架构,帮助读者了解一些背景知识。  核心设计篇(第3~7章),着重讲解SparkContext的初始化、存储体系、任务提交与执行、计算引擎及部署模式的原理和源码分析。通过这部分的内容,读者可以通过源码剖析更加深入理解Spark的核心设计与实现,以便在实际使用中能够快速解决线上问题并对性能进行调优。  扩展篇(第8~11章),主要讲解基于Spark核心的各种扩展及应用,包括SQL处理引擎、Hive处理、流式计算框架SparkStreaming、图计算框架GraphX、机器学习库MLlib等内容。通过阅读这部分内容,读者可以扩展实际项目中对Spark的应用场景,让Spark焕发活力。

Spark海量数据处理 技术详解与平台实战

《Spark海量数据处理 技术详解与平台实战》

本书基于Spark发行版2.4.4写作而成,包含大量的实例与一个完整项目,层次分明,循序渐进。全书分为3部分,涵盖了技术理论与实战,读者可以从实战中巩固学习到的知识。第一部分主要围绕BDAS(伯克利数据分析栈),不仅介绍了如何开发Spark应用的基础内容,还介绍了StructuredStreaming、Spark机器学习、Spark图挖掘、Spark深度学习等高级主题,此外还介绍了Alluxio系统。第二部分实现了一个企业背景调查系统,比较新颖的是,该系统借鉴了数据湖与Lambda架构的思想,涵盖了批处理、流处理应用开发,并加入了一些开源组件来满足需求,既是对本书第一部分很好的巩固,又完整呈现了一个实时大数据应用的开发过程。第三部分是对全书的总结和展望。本书适合准备学习Spark的开发人员和数据分析师,以及准备将Spark应用到实际项目中的开发人员和管理人员阅读,也适合计算机相关专业的高年级本科生和研究生学习和参考,对于具有一定的Spark使用经验并想进一步提升的数据科学从业者也是很好的参考资料。

大数据项目管理 从规划到实现

《大数据项目管理 从规划到实现》

本书提供了一个框架,从整体上介绍与大数据项目开发相关的基本概念,帮助读者评估大数据项目,理解成功的现代数据项目的基本要素。全书共8章,内容包括现代数据项目的主要类型、生命周期、风险管理、接口设计、分布式存储系统、元数据管理、数据处理等。本书旨在让读者厘清思路,顺利地从数据项目的规划阶段走到执行阶段,实现健壮、可维护的架构和解决方案。

Spark机器学习

《Spark机器学习》

《Spark机器学习》每章都设计了案例研究,以机器学习算法为主线,结合实例探讨了Spark的实际应用。书中没有让人抓狂的数据公式,而是从准备和正确认识数据开始讲起,全面涵盖了推荐系统、回归、聚类、降维等经典的机器学习算法及其实际应用。

Spark机器学习:核心技术与实践

《Spark机器学习:核心技术与实践》

本书采用理论与大量实例相结合的方式帮助开发人员掌握使用Spark进行分析和实现机器学习算法。通过这些示例和Spark在各种企业级系统中的应用,帮助读者解锁Spark机器学习算法的复杂性,通过数据分析产生有价值的数据洞察力。

Spark机器学习进阶实战

《Spark机器学习进阶实战》

全书一共分三大部分:基础篇(1-2章)对Spark机器学习进行概述、并通过Spark机器学习开始进行数据分析;算法篇(3-8章)针对分类、聚类、回归、协同过滤、关联规则、降维等算法进行详细讲解,并进行案例支持;综合案例篇(9-12章)重点通过异常检测、用户画像、广告点击率预估、智慧交通大数据4个综合场景,详细讲解基于Spark机器学习的综合应用。

Spark机器学习实战

《Spark机器学习实战》

机器学习是一门多领域交叉学科,可以通过模拟来让计算机获取新的知识或技能。ApacheSpark是一种通用大数据框架,也是一种近实时弹性分布式计算和数据虚拟化技术,Spark使人们可以大规模使用机器学习技术,而无须在专用数据中心或硬件上进行大量投资。本书提供了ApacheSpark机器学习API的全面解决方案,不仅介绍了用Spark完成机器学习任务所需的基础知识,也涉及一些Spark机器学习的高级技能。全书共有13章,从环境配置讲起,陆续介绍了线性代数库、数据处理机制、构建机器学习系统的常见攻略、回归和分类、用Spark实现推荐引擎、无监督学习、梯度下降算法、决策树和集成模型、数据降维、文本分析和SparkSteaming的使用。本书是为那些掌握了机器学习技术的Scala开发人员准备的,尤其适合缺乏Spark实践经验的读者。本书假定读者已经掌握机器学习算法的基础知识,并且具有使用Scala实现机器学习算法的一些实践经验。但不要求读者提前了解SparkML库及其生态系统。

Python与数据挖掘

《Python与数据挖掘》

这是一本适合教学和零基础自学的Python与数据挖掘的教程,即便你完全没有Python编程基础和数据挖掘基础,根据本书中的理论知识和上机实践,你也能迅速掌握如何使用Python进行数据挖掘。本书已经被多所高校预定为教材,为了便于教学,书中还提供了大量的上机实验和教学资源。本书主要分为两篇:基础篇(1~6章):第1章旨在让读者从全局把握数据挖掘、建模工具以及Python开发环境的搭建;第2章正式开始讲解Python的基础知识,包括操作符、变量类型、流程控制、数据结构等内容;第3、4章主要对Python面向对象的特性进行介绍,包括函数、类与对象等基本概念;第5章介绍主流的数据分析与挖掘的模块,以及其中具体的方法及对应的功能;第6章继续拓展了模块的相关内容,介绍图表绘制的专用模块(Matplotlib和Bokeh),深入浅出地展示如何方便地绘制点、线、图等。建模应用篇(7~11章):主要对数据挖掘中的常用算法进行介绍,强调在Python中对应函数的使用方法及其结果的解释说明。内容涵盖五大主流的数据挖掘算法,包括分类与预测、聚类分析建模、关联规则分析、智能推荐和时间序列分析。按照从模型建立到模型评价的架构进行介绍,使读者熟练掌握从建模到对模型评价的完整建模过程。

R语言数据分析与挖掘实战

《R语言数据分析与挖掘实战》

    这是一本系统性的、以实践为导向的R数据挖掘与分析实战指南,多位技术专家结合自己10多年的经验,以电力、航空、医疗、互联网、制造业等10个行业的实战案例为主线,深入浅出地讲解了如何利用R语言及其相关技术进行数据挖掘建模、数据分析和二次开发,不仅为多个行业提供了成熟的解决方案,而且还提供了大量的技巧。  本书共16章,分三个部分:  基础篇(第1~5章),第1章的主要内容是数据挖掘概述;第2章对本书所用到的数据挖掘建模工具R语言进行了简明扼要的说明;第3、4、5章对数据挖掘的建模过程,包括数据探索、数据预处理及挖掘建模的常用算法与原理进行了介绍。  实战篇(第6~15章),重点对数据挖掘技术在电力、航空、医疗、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上,本书是按照先介绍案例背景与挖掘目标,再阐述分析方法与过程,最后完成模型构建的顺序进行的,在建模过程等关键环节,穿插程序实现代码。最后通过上机实践,加深数据挖掘技术在案例应用中的理解。  高级篇(第16章),介绍了基于R语言二次开发的数据挖掘应用软件——TipDM数据挖掘建模工具,并以此工具为例详细介绍了基于R语言完成数据挖掘二次开发的各个步骤,使读者体验到通过R语言实现数据挖掘二次开发的强大魅力。  提供原始样本数据文件、建模源程序、数据挖掘模型及其源代码、教学用PPT等。

Hadoop大数据分析与挖掘实战

《Hadoop大数据分析与挖掘实战》

  10多位技术专家结合自己10多年的经验,以电信、航空、医疗等多个行业的实战案例为主线,深入浅出地讲解了如何基于Hadoop架构技术进行大数据挖掘建模、数据分析和二次开发。  本书共16章,分三个部分:基础篇、实战篇、高级篇。  基础篇(第1~6章),第1章的主要内容是数据挖掘概述、大数据餐饮行业应用;第2章针对大数据理论知识进行基础讲解,简明扼要地对Hadoop安装、原理等做了介绍;第3章介绍了大数据仓库Hive的安装、原理等内容;第4章介绍了大数据数据库HBase的安装、原理等内容;第5章介绍了几种大数据挖掘建模平台,同时重点介绍了本书使用的开源TipDM-HB大数据挖掘平台;第6章对数据挖掘的建模过程,各种挖掘建模的常用算法与原理及其在大数据挖掘算法库Mahout的实现原理进行了介绍。  实战篇(第7~14章),重点对大数据挖掘技术在法律咨询、电子商务、航空、移动通信、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上,本书是按照先介绍案例背景与挖掘目标,再阐述大数据时代针对大数据的分析方法与过程,最后完成模型构建的顺序进行,对建模过程等关键环节进行了详细的分析。最后通过上机实践,加深对大数据挖掘技术以及分析流程的认识。  高级篇(第15~16章),介绍了基于Hadoop大数据开发的相关技术以及开发步骤,同时使用实例来展示这些步骤,使读者可以自己动手实践,亲自体会开发的乐趣;同时,还介绍了基于TipDM-HB大数据挖掘平台的二次开发实例,借助TipDM-HB大数据挖掘平台二次开发工具,可以更加快捷、高效地完成相关大数据应用的二次开发,降低开发难度,使读者更方便地体会到大数据分析与挖掘的强大魅力。  图书配套提供原始样本数据文件、相关代码及教学用PPT等。

R语言与数据挖掘

《R语言与数据挖掘》

  这是公认的、权*的适合教学和零基础自学的R语言与数据挖掘教程,华南师范大学、广东工业大学、广西科技大学等20余所大学选为教材。即便你完全没有R语言编程基础和数据挖掘基础,根据本书中的理论知识和上机实践,你也能迅速掌握如何使用R语言进行数据挖掘。本书已经被多少高校预定为教材,为了便于教学,书中还提供了大量的上机实验和教学资源。  本书主要分为三个部分:  基础篇(1~5章),主要包括R语言及图形操作工具RStudio的安装及使用方法、数据类型和数据对象、数据预处理的常用操作(包括数据重命名、缺失值分析、排序、随机抽样等)、绘图功能(包括散点图、直方图、条形图、箱线图等)。  建模应用篇(6~10章),主要对数据挖掘中的常用算法的函数在R语言中的使用方法及其结果解释进行了介绍。涵盖了目前数据挖掘的5大类算法,包括分类与预测、聚类分析、关联规则、智能推荐和时序模式。按照模型建立至模型评价的架构进行介绍,使读者能熟练的掌握从建模到对模型评价的完整建模过程。  Rattle篇(11章),此工具能够在一个图形化的界面上对本书所介绍的R语言功能进行操作,使读者能更好的体验到使用R语言进行数据挖掘的整个流程。  书中配套提供了原始样本数据文件及对应章节示例代码。每个章节有对应的练习实验和教学PPT,读者可通过完成对应的练习,迅速掌握R语言的用法和数据挖掘的方法。

R数据科学实战:工具详解与案例分析

《R数据科学实战:工具详解与案例分析》

这是一部能指导零基础的读者快速掌握R语言并利用R语言进入数据科学领域的著作。两位作者在R语言和数据科学领域有丰富的实践经验,首先是非常有针对性地讲解了利用R语言进行数据处理需要掌握和使用的6大类17种工具,然后是结合这些工具的使用给出了5个典型的综合性案例,帮助读者迅速将理论与实践融会贯通。全书一共11章,逻辑上分为两大部分:第一部分R语言工具箱(第1-6章)首先从数据导入、数据清洗、数据计算、循环和迭代等几个方面详细讲解了R语言中相关的各种常用的工具,然后深入地讲解了R语言中的“超级瑞士军刀”data.table包。掌握这部分内容,能满足R语言数据处理中的基本需求。第二部分数据科学实战案例(第7-11章)第7章首先对数据科学从业者的现状和未来应该掌握的技术和工具进行了介绍;第8-11章通过4个综合性的案例讲解了使用R语言进行数据处理和分析的一整套流程和方法,与第一部分的内容融会贯通。

大数据技术丛书:MATLAB数据分析与挖掘实战

《大数据技术丛书:MATLAB数据分析与挖掘实战》

  《大数据技术丛书:MATLAB数据分析与挖掘实战》共16章,共三篇。基础篇(第1~5章),第1章的主要内容是数据挖掘概述;第2章对《大数据技术丛书:MATLAB数据分析与挖掘实战》所用到的数据挖掘建模工具MATALB进行了简明扼要的说明;第3章、第4章、第5章对数据挖掘的建模过程,包括数据探索、数据预处理及挖掘建模的常用算法与原理进行了介绍。实战篇(第6~15章),重点对数据挖掘技术在电力、航空、医疗、互联网、生产制造以及公共服务等行业的应用进行了分析。在案例结构组织上,《大数据技术丛书:MATLAB数据分析与挖掘实战》是按照先介绍案例背景与挖掘目标,再阐述分析方法与过程,最后完成模型构建的顺序进行的,在建模过程关键环节,穿插程序实现代码。最后通过上机实践,加深数据挖掘技术在案例应用中的理解。提高篇(第16章),介绍了基于MATLAB二次开发的数据挖掘应用软件——TipDM数据挖掘建模工具,并以此工具为例详细介绍了基于MATLAB接口完成数据挖掘二次开发的各个步骤,使读者体验到通过MATLAB实现数据挖掘二次开发的强大魅力。

MATLAB与机器学习

《MATLAB与机器学习》

本书是关于在MATLAB中使用实例进行机器学习的综合指南。书中概述了人工智能与自动控制的历史;回顾了用于机器学习的商用软件包,并展示了它们如何应用于该领域;接着展示了如何使用MATLAB来解决机器学习问题,以及如何利用MATLAB图形技术来增强程序员对机器学习结果的理解。本书随书提供了机器学习中若干重要问题的MATLAB完整解决方案,包括飞机控制、人脸识别、自动驾驶。书中所有的示例和应用程序都提供了完整的源代码。机器学习包含大量的数学概念与理论。书中以清晰简洁的方式介绍了其中每个领域的数学知识,即使是并不经常接触数学理论的读者也可以轻松理解。工程领域的读者会看到这些数学知识与他们已经了解的领域技术之间的密切联系,并将学习到新的技术。本书主要内容:•机器学习领域的知识概述•如何使用MATLAB进行编程和构建机器学习应用程序•用于机器学习的MATLAB图形技术•面向实际机器学习问题的MATLAB应用案例

MATLAB机器学习:人工智能工程实践(原书第2版)

《MATLAB机器学习:人工智能工程实践(原书第2版)》

本书是关于在MATLAB中使用实例进行机器学习的综合指南。书中概述了人工智能与自动控制的历史;回顾了用于机器学习的商用软件包,并展示了它们如何应用于该领域;接着展示了如何使用MATLAB来解决机器学习问题,以及如何利用MATLAB图形技术来增强程序员对机器学习结果的理解。本书随书提供了机器学习中若干重要问题的MATLAB完整解决方案,包括飞行控制、人脸识别、自动驾驶。书中所有的示例和应用程序都提供了完整的源代码。机器学习包含大量的数学概念与理论解释。书中以清晰简洁的方式介绍了其中每个领域的数学知识,即使是并不经常接触数学理论的读者也可以轻松理解。工程领域的读者会看到这些数学知识与他们已经了解的领域技术之间的密切联系,并将学习到新的技术。本书主要内容:l如何使用MATLAB构建机器学习应用l适用于机器学习的MATLAB可视化技术l面向工程的机器学习应用案例

数据密集型应用系统设计

《数据密集型应用系统设计》

全书分为三大部分:第一部分,主要讨论有关增强数据密集型应用系统所需的若干基本原则。首先开篇第1章即瞄准目标:可靠性、可扩展性与可维护性,如何认识这些问题以及如何达成目标。第2章我们比较了多种不同的数据模型和查询语言,讨论各自的适用场景。接下来第3章主要针对存储引擎,即数据库是如何安排磁盘结构从而提高检索效率。第4章转向数据编码(序列化)方面,包括常见模式的演化历程。第二部分,我们将从单机的数据存储转向跨机器的分布式系统,这是扩展性的重要一步,但随之而来的是各种挑战。所以将依次讨论数据远程复制(第5章)、数据分区(第6章)以及事务(第7章)。接下来的第8章包括分布式系统的更多细节,以及分布式环境如何达成一致性与共识(第9章)。第三部分,主要针对产生派生数据的系统,所谓派生数据主要指在异构系统中,如果无法用一个数据源来解决所有问题,那么一种自然的方式就是集成多个不同的数据库、缓存模块以及索引模块等。首先第10章以批处理开始来处理派生数据,紧接着第11章采用流式处理。第12章总结之前介绍的多种技术,并分析讨论未来构建可靠、可扩展和可维护应用系统可能的新方向或方法。

当大数据遇见物联网——智能决策解决之道

《当大数据遇见物联网——智能决策解决之道》

本书详细阐述了与大数据、物联网、决策科学开发相关的基本解决方案,主要包括物联网和决策科学、物联网体系结构和用例设计、决策科学在物联网中的应用、机器学习、预测性分析等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。

Spark实时大数据分析——基于Spark Streaming框架

《Spark实时大数据分析——基于Spark Streaming框架》

本书详细阐述了与Spark实时大数据分析以及SparkStreaming框架相关的基本解决方案,主要包括大数据漫游指南,实时RDD,高速流:链接外部数据源,边界效应,实时ETL和分析技术,大规模机器学习,云、Lambda及Python等内容。此外,本书还提供了丰富的示例以及代码,以帮助读者进一步理解相关方案的实现过程。本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。

R语言商业分析实战

《R语言商业分析实战》

本书详细阐述了与R语言商业分析相关的基本解决方案,主要包括商业分析简介、R语言概述、R语言数据分析、描述性分析概述、商业分析过程与数据探索、机器学习、线性回归分析以及逻辑回归分析等内容。此外,本书还提供了相应的示例,以帮助读者进一步理解相关方案的实现过程。本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。

实时大数据分析:基于Storm、Spark技术的实时应用

《实时大数据分析:基于Storm、Spark技术的实时应用》

本书详细阐述了实时大数据分析的实现过程,主要包括大数据技术前景及分析平台;熟悉Storm平台;用Storm处理数据;Trident介绍和Storm性能优化;熟悉Kinesis;熟悉Spark;RDD编程;Spark的SQL查询引擎;SparkStreaming分析流数据以及Lambda架构等内容。此外,本书还提供了相应的示例、代码,以帮助读者进一步理解相关方案的实现过程。本书适合作为高等院校计算机及相关专业的教材和教学参考书,也可作为相关开发人员的自学教材和参考手册。

微信公众号

热门文章

更多