Apache Spark正在迅速将自己确立为下一代大数据“大物”，从而有助于促进基于Hadoop的高级实时分析。
随着Hadoop成为过去几年中大数据处理的最主要范例，一些事情已经变得清晰起来。

首先，Hadoop分布式文件系统（HDFS）是适用于大数据的存储平台。

其次，YARN是可以分配到大数据环境中的资源分配和管理框架。

第三个被认为是最重要的，是没有一个能够解决所有问题的处理框架。Map Reduce是一项了不起的技术，但不能解决所有问题。

依赖Hadoop的公司需要各种分析基础架构和流程来找到关键问题的答案。它还需要高级分析，例如数据准备，描述性分析，搜索，预测性分析以及其他机器学习和图形处理。

不止于此。您需要一套与这些元素配合使用的工具，以使您能够使用已经拥有的功能和资源。到目前为止，还没有一个满足所有这些标准的处理框架。这是Spark的基本优势。

Spark是一个相对短暂的数据项目，但它满足了所有上述要求。有五个理由可以说服您我们已经进入Spark时代。

许多领先的大型创新公司都在寻求扩展其高级分析功能。但是，根据在纽约最近一次数据分析活动中进行的一项调查，只有20％的公司在整个企业中采用了先进的分析技术。

其余80％的人表示数据准备和基础分析不胜枚举。这些公司中的少数数据科学家将大部分时间用于执行和管理基本分析。

Spark提供了立即进行高级分析的框架。该框架包括高速查询执行工具，机器学习库，图形处理引擎和流分析引擎。

与MapReduce不同，Spark提供了一个可以轻松，快速使用的库，即使有一些数据科学家很难获得，它也很难分析。这使数据科学家可以承担除数据准备和质量控制之外的任务。此外，Spark支持对分析结果的准确解释。

长期以来，人们一直批评Hadoop难以使用并且很难找到可以使用它的人。每次发布新版本时，它都会变得更简单，功能更强大，但仍然存在这种批评。

就Spark而言，用户不需要了解Java和MapReduce编程模式。这样做的好处是，只要拥有一些数据库和脚本技能（例如Python或Scala）的人都可以使用它。

这意味着公司可以更轻松地找到了解数据并可以使用工具进行处理的人员。此外，开发人员可以更快地开发和改进分析解决方案。

这一点上，我想问一个问题是否有意义。“如果SQL不存在，那么我们现在是否会发明SQL来解决大数据分析的巨大挑战？”

可能不会。我不会发明至少一种SQL。我们将希望更灵活地获得所需的答案，有更多的选择来组织和检索数据，以及更快地将数据移至分析框架。

Spark消除了纯SQL思维方式。它使公司能够以最快，最有效的方式开始分析数据，以应对他们面临的挑战和所拥有的数据。

业务执行速度的不断提高，对实时结果的需求也在增加。

Spark提供并行的内存中处理，其结果生成速度比其他需要磁盘访问的技术快几倍。

由于结果是立即显示的，因此可以消除分析速度变慢和业务流程变慢的情况。随着开发人员开始开发基于Spark的应用程序，分析工作流程的速度也将大大提高。

加快准备结果的时间，使您可以通过迭代分析找到更准确的答案。Spark使分析师能够更快地找到答案。

大多数主要的Hadoop发行版都支持Spark。有一个原因。Spark是开发人员中立的解决方案。这意味着用户不必局限于特定的开发人员。

Spark是开源的。因此，您可以自由地实施基于Spark的分析基础架构，而不必担心将来是否要更改Hadoop开发人员。即使开发人员变更，也可以按原样转移分析功能。

Spark之所以能够在短时间内建立动力，是因为它可以满足使用大数据分析的公司的需求。“火花时代”才刚刚开始。随着公司开始利用Spark的潜力，Spark将成为各种大数据分析环境中的关键技术之一。

使用Spark进行大数据分析的5个理由

相关文章