快速hadoop分析(cloudera impala vs spark/shark vs apache drill)

mnemlml8 于 2021-06-26 发布在 Impala

关注(0)|答案(2)|浏览(486)

我想对hdfs中的数据进行一些“近实时”的数据分析（类似olap）。
我的研究表明，与apachehive相比，上述三个框架报告了显著的性能提升。有人对其中任何一种都有实际经验吗？不仅是性能方面，还是稳定性方面？

impala apache-spark apache-drill

来源：https://stackoverflow.com/questions/17290397/fast-hadoop-analytics-cloudera-impala-vs-spark-shark-vs-apache-drill

2条答案

按热度按时间

mo49yndu1#

以下是“ Impala 与鲨鱼相比如何？”的答案，来自加州大学伯克利分校（uc berkeley）amplab鲨鱼开发项目负责人reynoldxin。

赞(0）回复(0）举报 2021-06-26

chhkpiq42#

把Hive和 Impala 、Spark或钻头作比较有时听起来不太合适。开发hive和这些工具背后的目标是不同的。hive从来不是为实时内存处理而开发的，它是基于mapreduce的。它是为离线批量处理而建的。最适合在需要长时间运行的作业执行数据繁重的操作（如在非常大的数据集上进行连接）时使用。
另一方面，这些工具是保持 real-timeness 记住。当你需要查询不太庞大的数据时，可以将它们放入内存，实时进行。我并不是说你不能用这些工具在bigdata上运行查询，但是如果你在pbs的数据上运行实时查询，那你就太过分了。
你经常会看到（或读到）某个公司有几个pbs的数据，他们成功地满足了客户的实时需求。但实际上，这些公司大部分时间并不是在查询他们的全部数据。所以，重要的是正确的计划， when to use what . 我希望你明白我想说的意思。
回到你的实际问题上来，在我看来，目前很难提供一个合理的比较，因为这些项目大多还远远没有完成。他们还没有生产准备好，除非你愿意做一些（或可能很多）自己的工作。而且，对于这些项目中的每一个，都有特定的目标，这些目标对于特定的项目是非常具体的。 For example ， Impala 是利用现有的Hive基础设施开发的，这样你就不必从头开始。它使用与hive相同的元数据。它的目标是在现有hadoop仓库之上运行实时查询。而钻孔机被发展成 not only Hadoop 项目。并为我们提供跨多个大数据平台的分布式查询功能，包括mongodb、cassandra、riak和splunk。shark与apachehive兼容，这意味着您可以使用与通过hive相同的hiveql语句来查询它。不同的是，shark返回结果的速度比在hive上运行的相同查询快30倍。
Impala 目前做得很好，有些人一直在使用它，但我不太相信其余的2。所有这些工具都很好，但只有在您对数据和处理需要尝试这些工具之后，才能进行公平的比较。但根据我的经验， Impala 是目前最好的选择。我不是说其他工具不好，但它们还不够成熟。但是，如果您希望将它与已经运行的hadoop集群（apache的hadoop for ex）一起使用，您可能需要做一些额外的工作，因为几乎每个人都将impala用作cdh特性。
注：所有这些都是基于我的经验。如果你发现有什么不对劲或不合适的地方，请务必告诉我。欢迎提出意见和建议。我希望这能回答你的一些问题。

赞(0）回复(0）举报 2021-06-26

我来回答

快速hadoop分析(cloudera impala vs spark/shark vs apache drill)

2条答案

相关问题

热门标签

最新问答