快速hadoop分析(cloudera impala vs spark/shark vs apache drill)

mnemlml8  于 2021-06-26  发布在  Impala
关注(0)|答案(2)|浏览(486)

我想对hdfs中的数据进行一些“近实时”的数据分析(类似olap)。
我的研究表明,与apachehive相比,上述三个框架报告了显著的性能提升。有人对其中任何一种都有实际经验吗?不仅是性能方面,还是稳定性方面?

mo49yndu

mo49yndu1#

以下是“ Impala 与鲨鱼相比如何?”的答案,来自加州大学伯克利分校(uc berkeley)amplab鲨鱼开发项目负责人reynoldxin。

chhkpiq4

chhkpiq42#

把Hive和 Impala 、Spark或钻头作比较有时听起来不太合适。开发hive和这些工具背后的目标是不同的。hive从来不是为实时内存处理而开发的,它是基于mapreduce的。它是为离线批量处理而建的。最适合在需要长时间运行的作业执行数据繁重的操作(如在非常大的数据集上进行连接)时使用。
另一方面,这些工具是保持 real-timeness 记住。当你需要查询不太庞大的数据时,可以将它们放入内存,实时进行。我并不是说你不能用这些工具在bigdata上运行查询,但是如果你在pbs的数据上运行实时查询,那你就太过分了。
你经常会看到(或读到)某个公司有几个pbs的数据,他们成功地满足了客户的实时需求。但实际上,这些公司大部分时间并不是在查询他们的全部数据。所以,重要的是正确的计划, when to use what . 我希望你明白我想说的意思。
回到你的实际问题上来,在我看来,目前很难提供一个合理的比较,因为这些项目大多还远远没有完成。他们还没有生产准备好,除非你愿意做一些(或可能很多)自己的工作。而且,对于这些项目中的每一个,都有特定的目标,这些目标对于特定的项目是非常具体的。 For example , Impala 是利用现有的Hive基础设施开发的,这样你就不必从头开始。它使用与hive相同的元数据。它的目标是在现有hadoop仓库之上运行实时查询。而钻孔机被发展成 not only Hadoop 项目。并为我们提供跨多个大数据平台的分布式查询功能,包括mongodb、cassandra、riak和splunk。shark与apachehive兼容,这意味着您可以使用与通过hive相同的hiveql语句来查询它。不同的是,shark返回结果的速度比在hive上运行的相同查询快30倍。
Impala 目前做得很好,有些人一直在使用它,但我不太相信其余的2。所有这些工具都很好,但只有在您对数据和处理需要尝试这些工具之后,才能进行公平的比较。但根据我的经验, Impala 是目前最好的选择。我不是说其他工具不好,但它们还不够成熟。但是,如果您希望将它与已经运行的hadoop集群(apache的hadoop for ex)一起使用,您可能需要做一些额外的工作,因为几乎每个人都将impala用作cdh特性。
注:所有这些都是基于我的经验。如果你发现有什么不对劲或不合适的地方,请务必告诉我。欢迎提出意见和建议。我希望这能回答你的一些问题。

相关问题