1 速度

百倍的运行速度。

Spark使用先进的DAG调度系统，查询优化器与物理执行引擎，实现了批处理与流处理的高性能。

2 简单易用、支持开发语言丰富

df = spark.read.json("logs.json") df.where("age > 21")   .select("name.first").show()

支持的开发语言：Scala、Java、Python、R语言、SQL

Spark是大规模数据处理的统一分析引擎。

Spark顶层架构

Spark 保护的主要模块有四部分 Spark SQL，Spark Streaming，MLlib（机器学习），GraphX（图计算）。

使用Spark开发的应用程序，可以在多处运行。
支持Spark应用发布的有：

支持多中数据源 HDFS, Apache Cassandra, Apache HBase, Apache Hive, 关系型数据库，以及数百个其他数据源。

源码获取 https://github.com/lycheeman/big-data