《Spark数据分析：基于Python语言（英文版）》

出版社：机械工业出版社
ISBN：9787111620037
版次：1
商品编码：12562784
品牌：机工出版
包装：平装
丛书名：经典原版书库
开本：16开
出版时间：2019-03-01
用纸：胶版纸
页数：277

京东

基本介绍书籍目录点评信息

书籍内容
本书重点关注Spark项目的基本知识，从Spark核心开始，然后拓展到各种Spark扩展、Spark相关项目、Spark子项目，以及Spark所处的丰富的生态系统里各种别的开源技术，比如Hadoop、Kafka、Cassandra等。
前言/序言
Spark在这场由大数据与开源软件掀起的颠覆性革命中处于核心位置。不论是尝试Spark的意向还是实际用例的数量都在以几何级数增长，而且毫无衰退的迹象。本书将手把手引导你在大数据分析领域中收获事业上的成功。本书重点本书重点关注Spark项目的基本知识，从Spark核心开始，然后拓展到各种Spark扩展、Spark相关项目及子项目，以及Spark所处的丰富的生态系统里各种别的开源技术，比如Hadoop、Kafka、Cassandra等。尽管对于本书所介绍的Spark基本概念（包括运行环境、集群架构、应用架构等）的理解是与编程语言无关且透明的，本书中大多数示例程序和练习是用Python实现的。Spark的Python API（PySpark）为数据分析师、数据工程师、数据科学家等提供了易用的编程环境，让开发者能在获得Python语言的灵活性和可扩展性的同时，获得Spark的分布式处理能力和伸缩性。本书所涉及的范围非常广泛，涵盖了从基本的Spark 核心编程到Spark SQL、Spark Streaming、机器学习等方方面面的内容。本书对于每个主题都给出了良好的介绍和概览，足以让你以Spark项目为基础构建出针对任何特定领域或学科的平台。目标读者本书是为有志进入大数据领域或是已经入门想要进一步巩固大数据领域知识的数据分析师和工程师而写的。当前市场对于具备大数据技能、懂得大数据领域优秀处理框架Spark的工程师的需求特别大。本书的目标是针对这一不断增长的雇佣市场需求培训读者，使得读者获得雇主亟需的技能。对于阅读本书来说，有Python使用经验是有帮助的，没有的话也没关系，毕竟Python对于任何有编程经验的人来说都非常直观易懂。读者最好对数据分析和数据处理有一定了解。这本书尤其适合有兴趣进入大数据领域的数据仓库技术人员阅读。如何使用本书本书分为两大部分共8章。第一部分“Spark基础”包括4章，会让读者深刻理解Spark是什么，如何部署Spark，如何使用Spark进行基本的数据处理操作。第1章提供了大数据生态圈的概览，包括Spark项目的起源和演进过程。本章讨论了Spark项目的关键属性，包括Spark是什么，用起来如何，以及Spark与Hadoop项目之间的关系。第2章展示了如何部署一个Spark集群，包括Spark集群的各种部署模式，以及调用Spark的各种方法。第3章讨论Spark集群和应用是如何运作的，让读者深刻理解Spark是如何工作的。第4章关注使用弹性分布式数据集（RDD）进行Spark初级编程的基础。第二部分“基础拓展”包括后四章的内容，扩展到Spark的核心模块以外，包括SQL和NoSQL系统、流处理应用、数据科学与机器学习中Spark的使用：第5章讲解了用来扩展、加速和优化常规Spark例程的高级元件，包括各种共享变量和RDD存储，以及分区的概念及其实现。第6章讨论Spark与广袤的SQL土壤的整合，还有Spark与非关系型存储的整合。第7章介绍了Spark的Streaming子项目，以及Streaming中最基本的DStream对象。本章还涵盖了Spark对于Apache Kafka这样的常用消息系统的使用。第8章介绍了使用R语言使用Spark建立预测模型，以及Spark中用来实现机器学习的子项目MLlib。本书代码本书中各个练习的示例数据和源代码可以从http://sparkusingpython.com下载。你也可以从https://github.com/sparktraining/spark_using_python查看或者下载本书的GitHub代码仓库。
第一部分　Spark基础第1章　大数据、Hadoop、Spark介绍3 1.1　大数据、分布式计算、Hadoop简介3 1.1.1　大数据与Hadoop简史4 1.1.2　Hadoop详解5 1.2　Apache Spark简介11 1.2.1　Apache Spark背景11 1.2.2　Spark的用途12 1.2.3　Spark编程接口12 1.2.4　Spark程序的提交类型12 1.2.5　Spark应用程序的输入输出类型14 1.2.6　Spark中的RDD14 1.2.7　Spark与Hadoop14 1.3　Python函数式编程15 1.3.1　Python函数式编程用到的数据结构15 1.3.2　Python对象序列化18 1.3.3　Python函数式编程基础21 1.4　本章小结23 第2章　部署Spark25 2.1　Spark部署模式25 2.1.1　本地模式26 2.1.2　Spark独立集群26 2.1.3　基于YARN运行Spark27 2.1.4　基于Mesos运行Spark28 2.2　准备安装Spark28 2.3　获取Spark29 2.4　在Linux或Mac OS X上安装Spark30 2.5　在Windows上安装Spark32 2.6　探索Spark安装目录34 2.7　部署多节点的Spark独立集群35 2.8　在云上部署Spark37 2.8.1　AWS37 2.8.2　GCP39 2.8.3　Databricks40 2.9　本章小结41 第3章　理解Spark集群架构43 3.1　Spark应用中的术语43 3.1.1　Spark驱动器44 3.1.2　Spark工作节点与执行器47 3.1.3　Spark主进程与集群管理器49 3.2　使用独立集群的Spark应用51 3.3　在YARN上运行Spark应用的部署模式51 3.3.1　客户端模式52 3.3.2　集群模式53 3.3.3　回顾本地模式54 3.4　本章小结55 第4章　Spark编程基础57 4.1　RDD简介57 4.2　加载数据到RDD59 4.2.1　从文件创建RDD59 4.2.2　从文本文件创建RDD的方法61 4.2.3　从对象文件创建RDD64 4.2.4　从数据源创建RDD64 4.2.5　从JSON文件创建RDD67 4.2.6　通过编程创建RDD69 4.3　RDD操作70 4.3.1　RDD核心概念70 4.3.2　基本的RDD转化操作75 4.3.3　基本的RDD行动操作79 4.3.4　键值对RDD的转化操作83 4.3.5　MapReduce与单词计数练习90 4.3.6　连接操作93 4.3.7　在Spark中连接数据集98 4.3.8　集合操作101 4.3.9　数值型RDD的操作103 4.4　本章小结106 第二部分　基础拓展第5章　Spark核心API高级编程109 5.1　Spark中的共享变量109 5.1.1　广播变量110 5.1.2　累加器114 5.1.3　练习：使用广播变量和累加器117 5.2　Spark中的数据分区118 5.2.1　分区概述118 5.2.2　掌控分区119 5.2.3　重分区函数121 5.2.4　针对分区的API方法123 5.3　RDD的存储选项125 5.3.1　回顾RDD谱系125 5.3.2　RDD存储选项126 5.3.3　RDD缓存129 5.3.4　持久化RDD129 5.3.5　选择何时持久化或缓存RDD132 5.3.6　保存RDD检查点132 5.3.7　练习：保存RDD检查点134 5.4　使用外部程序处理RDD136 5.5　使用Spark进行数据采样137 5.6　理解Spark应用与集群配置139 5.6.1　Spark环境变量139 5.6.2　Spark配置属性143 5.7　Spark优化146 5.7.1　早过滤，勤过滤147 5.7.2　优化满足结合律的操作147 5.7.3　理解函数和闭包的影响149 5.7.4　收集数据的注意事项150 5.7.5　使用配置参数调节和优化应用150 5.7.6　避免低效的分区151 5.7.7 　应用性能问题诊断153 5.8　本章小结157 第6章　使用Spark进行SQL与NoSQL编程159 6.1　Spark SQL简介159 6.1.1　Hive简介160 6.1.2　Spark SQL架构164 6.1.3　DataFrame入门166 6.1.4　使用DataFrame177 6.1.5　DataFrame缓存、持久化与重新分区185 6.1.6　保存DataFrame输出186 6.1.7　访问Spark SQL189 6.1.8　练习：使用Spark SQL192 6.2　在Spark中使用NoSQL系统193 6.2.1　NoSQL简介194 6.2.2　在Spark中使用HBase195 6.2.3　练习：在Spark中使用HBase198 6.2.4　在Spark中使用Cassandra200 6.2.5　在Spark中使用DynamoDB202 6.2.6　其他NoSQL平台204 6.3　本章小结204 第7章　使用Spark处理流数据与消息207 7.1　Spark Streaming简介207 7.1.1　Spark Streaming架构208 7.1.2　DStream简介209 7.1.3　练习：Spark Streaming入门216 7.1.4　状态操作217 7.1.5　滑动窗口操作219 7.2　结构化流处理221 7.2.1　结构化流处理数据源222 7.2.2　结构化流处理的数据输出池223 7.2.3　输出模式224 7.2.4　结构化流处理操作225 7.3　在Spark中使用消息系统226 7.3.1　Apache Kafka227 7.3.2　练习：在Spark中使用Kafka232 7.3.3　亚马逊Kinesis235 7.4　本章小结238 第8章　Spark数据科学与机器学习简介241 8.1　Spark与R语言241 8.1.1　R语言简介242 8.1.2　通过R语言使用Spark248 8.1.3　练习：在RStudio中使用SparkR255 8.2　Spark机器学习257 8.2.1　机器学习基础257 8.2.2　使用Spark MLlib进行机器学习260 8.2.3　练习：使用Spark MLlib实现推荐器265 8.2.4　使用Spark ML进行机器学习269 8.3　利用笔记本使用Spark273 8.3.1　利用Jupyter（IPython）笔记本使用Spark273 8.3.2　利用Apache Zeppelin笔记本使用Spark276 8.4　本章小结277 Contents I: Spark Foundations 1 Introducing Big Data, Hadoop, and Spark 3 Introduction to

书籍内容

前言/序言

热门标签

热门文章