Spark大数据处理: 原理、算法与实例

《Spark大数据处理: 原理、算法与实例》

  • 出版社:清华大学出版社
  • ISBN:9787302449959
  • 版次:1
  • 商品编码:12051244
  • 品牌:清华大学出版社(TsinghuaUniversityPress)
  • 包装:平装
  • 开本:16开
  • 出版时间:2016-09-01
  • 用纸:胶版纸
  • 页数:199
  • 字数:228000
  • 正文语种:中文
基本介绍书籍目录点评信息
  • 书籍内容

      本书以时下流行的Hadoop所存在的缺陷为出发点,深入浅出地介绍了下一代大数据处理核心技术Spark的优势和必要性,并以简洁的指引步骤展示了如何在10分钟内建立一个Spark大数据处理环境。在此基础上,本书以图文并茂和丰富的示例代码讲解的形式系统性地揭示了Spark的运行原理、算子使用、算法设计和优化手段,为读者提供了一个快速由浅入深掌握Spark基础能力和高级技巧的参考书籍。  本书共六章,涉及的主题主要包括大数据处理技术从Hadoop发展到Spark的必然性、快速体验Spark的指引、Spark架构和原理、RDD算子使用方法和示例、Spark算法设计实例、Spark程序优化方法。  本书适合需要使用Spark进行大数据处理的程序员、架构师和产品经理作为技术参考和培训资料,亦可作为高校研究生和本科生教材。

    编辑推荐

      Spark被称为大数据处理王者技术Hadoop的真正挑战者。本书以丰富示例介绍Spark程序和数据挖掘算法设计,更好地帮助Spark开发者提高学习效率。

    作者简介

      刘军,男,1976年生人,博士,副教授,硕士生导师,北京邮电大学数据科学中心主任。  2003年至2007年任职于IBM中国研究院,担任高级研究员及部门经理,建立IBM中国研究院电信融合网络管理研究方向,主持研发Websphere及Tivoli电信产品线中多项关键技术,期间发表多篇国际会议及刊物论文,并申请获得多项美国专利。  2007年至2012年创办欢城(北京)科技有限公司,开创中国无端网络游戏产业,并担任中国软件协会网页游戏专业委员会委员。公司产品多次荣获国内互联网业界奖项,2008年获中国互联网协会“十分具运营价值Webgame”奖项,  2012年至今在北京邮电大学信息与通信工程学院任教,研究方向为电信及互联网大数据分析、高速数据流挖掘算法,并牵头组建北京邮电大学数据科学中心。开设研究生课程《海量数据处理中的云计算》,发表大数据分析相关SCI/EI检索论文十余篇,并独著《Hadoop大数据处理》一书,该书被哈工大、中南大学等多所高校的相关课程作为教材使用。
  • 第1章从Hadoop到Spark1.1Hadoop——大数据时代的火种1.1.1大数据的由来1.1.2Google解决大数据计算问题的方法1.1.3Hadoop的由来与发展1.2Hadoop的局限性1.2.1Hadoop运行机制1.2.2Hadoop的性能问题1.2.3针对Hadoop的改进1.3大数据技术新星——Spark1.3.1Spark的出现与发展1.3.2Spark协议族1.3.3Spark的应用及优势第2章体验Spark2.1安装和使用Spark2.1.1安装Spark2.1.2了解Spark目录结构2.1.3使用Spark Shell2.2编写和运行Spark程序2.2.1安装Scala插件2.2.2编写Spark程序2.2.3运行Spark程序2.3Spark Web UI2.3.1访问实时Web UI2.3.2从实时UI查看作业信息第3章Spark原理3.1Spark工作原理3.2Spark架构及运行机制3.2.1Spark系统架构与节点角色3.2.2Spark作业执行过程3.2.3应用初始化3.2.4构建RDD有向无环图3.2.5RDD有向无环图拆分3.2.6Task调度3.2.7Task执行第4章RDD算子4.1创建算子4.1.1基于集合类型数据创建RDD4.1.2基于外部数据创建RDD4.2变换算子4.2.1对Value型RDD进行变换4.2.2对Key/ Value型RDD进行变换4.3行动算子4.3.1数据运算类行动算子4.3.2存储型行动算子4.4缓存算子第5章Spark算法设计5.1过滤5.2去重计数5.3相关计数5.4相关系数5.5数据联结5.6TopK5.7Kmeans5.8关联规则挖掘5.9kNN5.10朴素贝叶斯分类第6章善用Spark6.1合理分配资源6.2控制并行度6.3利用持久化6.4选择恰当的算子6.5利用共享变量6.5.1累加器变量6.5.2广播变量6.6利用序列化技术6.7关注数据本地性6.8内存优化策略6.9集成外部工具参考文献
微信公众号

热门文章

更多