apache storm与hadoop之比较

ct3nt3jp 于 2021-06-26 发布在 Storm

关注(0)|答案(6)|浏览(389)

storm和hadoop相比怎么样？hadoop似乎是开源大规模批处理的实际标准，storm比hadoop有什么优势吗？还是完全不同？

hadoop streaming apache-storm

来源：https://stackoverflow.com/questions/11250028/apache-storm-compared-to-hadoop

6条答案

按热度按时间

juud5qan1#

storm用于快速数据（实时），hadoop用于大数据（已有大量数据）。storm不能处理大数据，但可以生成大数据作为输出。

赞(0）回复(0）举报 2021-06-26

jmp7cifd2#

你为什么不说出你的意见呢。
http://www.infoq.com/news/2011/09/twitter-storm-real-time-hadoop/
http://engineering.twitter.com/2011/08/storm-is-coming-more-details-and-plans.html
twitter风暴被吹捧为实时hadoop。这更像是为了方便消费而采取的营销手段。
它们表面上很相似，因为它们都是分布式应用程序解决方案。除了典型的分布式体系结构元素，如主/从、基于管理员的协调之外，对我来说，这种比较是一落千丈的。
twitter更像是处理数据的管道。管道是连接接收数据、计算和传递输出的各种计算节点的东西(有行话是喷口和螺栓）扩展这个类比到一个复杂的管道布线，可以重新设计时，需要和你得到twitter风暴。
在nutshell中，它处理数据。没有延迟。
hadoop在这方面的不同主要是由于hdfs。它是一种面向分布式存储的解决方案，能够承受多种规模（磁盘、机器、机架等）的停机
构建m/r是为了利用hdfs上的数据本地化来分发计算作业。总之，它们不能提供实时数据处理的工具。但当您查看大数据时，这并不总是一个要求(大海捞针（比喻）
简而言之，twitter storm是一个分布式实时数据处理解决方案。我认为我们不应该比较它们。twitter之所以建立它，是因为它需要一个设备来处理小的tweet，但数量庞大，而且是实时的。
看：如果你被迫把它与某件事作比较的话

赞(0）回复(0）举报 2021-06-26

b4lqfgs43#

我使用storm已经有一段时间了，现在我放弃了这项非常好的技术，转而使用一项惊人的技术：spark(http://spark.apache.org)它为开发人员提供了一个用于批处理或流处理（微批处理）以及机器学习和图形处理的统一api。
值得一试。

赞(0）回复(0）举报 2021-06-26

quhf5bfb4#

apachestorm是一个免费的开源分布式实时计算系统。storm使得可靠地处理无限的数据流变得很容易，实现了hadoop对批处理的实时处理。
由于hadoop生态系统中存在许多子系统，我们必须根据特定系统的业务需求和可行性来选择合适的子系统。
hadoopmapreduce对于一次批处理一个作业非常有效。这就是为什么hadoop被广泛用作数据仓库工具而不是数据分析工具的原因。
既然这个问题只与“storm”和“hadoop”有关，那就看看storm的用例吧——金融服务、电信、零售、制造、运输。
hadoopmapreduce最适合批处理。
storm是一个完整的流处理引擎，可用于实时数据分析，延迟时间为亚秒。
看看这篇dezyre文章，比较hadoop、storm和spark。它解释了相同点和不同点。
它可以概括为以下图片（从 dezyre 文章）