在Hadoop生态系统中，Pig(Apache Pig)和Hive(Apache Hive)经常被结合使用。字面翻译是猪和鸟窝（我）。我不知道猪是大象的朋友，世界小得像鸟窝，不是吗？

据悉，Spark是未来Hadoop的主流...
Hadoop 1.x实现了MapReduce，来到这个世界已经10年了。之后，在YARN上运行MapReduce的Hadoop 2.x出现了，Hadoop生态系统的发展也是从那个时候开始快速进步的。

而现在Spark受到了很多人的关注。(咦？这不是标题吧？
Spark是一个内存分布式框架，它的开发目标是取代Hadoop的MapReduce部分。

各个Hadoop分销商都宣布，未来将重点发展Spark。因此，Spark的Hadoop生态系统也有望得到发展。

但是，由于Spark是在内存中处理数据，所以服务器需要配备大量的内存。但支持大内存的硬件还是很贵的。另外，相应的生态系统也刚刚开始出现，所以在稳定性和对Hadoop环境的兼容性上还存在一些顾虑。
在这方面，老（对不起！）。 Hadoop生态系统的优势在于可以在商品硬件上使用。此外，还有一个完善的社区来支持用户，并且快速解决BUG。还是有很多需求的。

那么，让我们来看看旧的（再次抱歉！）。我们再来看看老的Hadoop生态系统，这次是Pig和Hive。

为什么会有这几对特色呢？原因是它们是如此强大的工具，几乎可以覆盖从数据采集到分析的所有过程，这一点我将在后面解释。

什么是pig？

Pig是由雅虎公司发布的一款开源软件。

它的开发是为了让MapReduce更容易编写。 Pig很适合描述数据流，数据的收集、处理和标准化。其特点在《猪哲学》中有所描述。

猪什么都吃
猪吃任何东西（Pigs eat anything）→猪可以处理各种数据，不受文件格式的限制。
猪在哪里都能生活（猪在哪里都能生活
→ Pig最初是为并行数据处理而开发的，但它不依赖于任何特定的框架，包括Hadoop。
猪是家畜
→ Pig的设计是为了方便用户控制。也可以包含用户代码。
飞(猪在飞)
→ Pig处理数据的速度很快，但我们会继续努力提高性能，不会实现阻碍Pig飞行的重磅功能。
Apache Pig项目
https://pig.apache.org/

其实，你也可以用Spark做同样的事情，但这个时候你需要用Scala语言来编码。就像以前MapReduce是用Java写的一样...... 因此，Pig的产量比Spark高。

什么是Hive？

Hive是由Facebook开发的，用于在Hadoop上运行的数据仓库。它现在和Pig一样，是Apache项目的一部分。

Hive允许您将HDFS平面文件当作RDBMS表来处理。
此外，Hive表可以使用HiveQL（一种类似于SQL的查询语言）进行访问。如果你对RDBMS比较熟悉，使用起来就不会有任何不适。

Apache Hive项目
https://hive.apache.org/

使用Hive而不是RDBMS的好处是它可以处理大型数据集，当在RDBMS中处理数据时，必须将文件系统中的数据导入内存。在这种情况下，即使使用共享无的RDBMS，最大数据大小也是千兆级的。但在Hive的情况下，由于MapReduce在分布式环境中处理数据，它可以处理TB和PB级的数据。

这意味着Hive是一个比RDBMS更好的处理大量数据的工具。

pig和hive哪个更有用？

正如我在之前的专栏中提到的，Hive（第1名）和Pig（第5名）是目前使用最多的十大Hadoop生态系统之一。但它们很少被单独使用。而是将多个Hadoop生态系统结合起来使用，每个工具取长补短。

数据管道是一套收集和汇总产生的数据，并对其进行分析以产生结果的过程。在这个过程中，我们根据自己的需要，综合运用各种工具。

Pig和Hive的开发目标都是为了让MapReduce更容易使用，但它们在这个数据管道中扮演着不同的角色。
在很多情况下，Pig被用作接近数据源的ETL工具，即处理原始数据的地方，因为它能够处理各种数据格式。
另一方面，Hive的使用贴近用户，比如BI工具，因为它可以执行用户友好的查询。

正如我前面提到的，Pig和Hive可以覆盖数据管道的大部分领域。
Pig和Hive在数据流水线中的作用

如果你想看看它们是如何工作的，每个发行版都有一个沙盒，可以在你的PC上运行，包括Pig和Hive以外的工具，所以你可以选择你需要的工具和功能。

Hadoop生态系统与Spark 、Pig和Hive

什么是pig？

什么是Hive？

pig和hive哪个更有用？

相关文章

热门标签

最新文章

目录