有什么挑战？

p5cysglq 于 2021-05-30 发布在 Hadoop

关注(0)|答案(2)|浏览(314)

我在很多地方读过关于流数据的文章，但我只是想了解在使用map-reduce技术处理流数据时所面临的挑战？
i、 e.apache flume、apache storm等框架存在的原因。
请分享你的建议和想法。
谢谢，拉尼特

hadoop flume streaming bigdata

来源：https://stackoverflow.com/questions/27177104/streaming-data-hadoop-mapreduce-what-are-the-challenges

2条答案

按热度按时间

5gfr0r5j1#

有很多技术，其中很多都运行在hadoop框架上。
较老的hadoop服务（如hive）往往速度较慢，通常用于批处理作业，而不是流式处理。随着流媒体变得越来越有必要，其他服务如storm或spark等也浮出水面，这些服务旨在加快执行速度，并与kafka等流媒体消息队列集成。
不过，在数据分析中，大多数时间处理都不是实时的：历史数据可能以批处理模式进行处理，以提取模型，然后用于实时分析，因此“流”系统通常基于lambda体系结构http://lambda-architecture.net/
spark这样的服务试图集成所有组件，spark streaming用于速度层，spark sql用于服务层，spark mllib用于建模，所有这些都基于hadoop分布式文件系统（hdfs）用于复制大容量存储。
flume有助于将数据从源定向到hdfs进行原始存储，但是为了处理它，使用了storm或spark。
希望有帮助。

赞(0）回复(0）举报 2021-05-30

2nbm6dog2#

你的问题没有答案。但我假设您想了解在map reduce环境中处理流数据的挑战。
1） map reduce主要用于批处理。它用于处理磁盘中大量的数据。
2）流数据是一种高速的数据流，它来自于各种来源，如web应用程序点击流、社交媒体日志、twitter标签、应用程序日志等。
3）事件流可能以无状态方式（假设每个事件都是唯一的）或有状态方式（收集数据2秒钟并处理它们）进行处理，但批处理应用程序没有任何此类要求。
4）流媒体应用程序需要交付/流程保证。例如，框架必须提供“精确一次”的交付/处理机制，以便它能够毫无故障地处理所有流事件。这在批处理中不是一个挑战，因为所有的数据都可以在本地获得。
5）外部连接器：流框架必须支持外部连接，以便从各种来源实时读取数据，正如我们在（2）中讨论的那样。这不是批量的挑战，因为数据是本地可用的。
希望这有帮助。

赞(0）回复(0）举报 2021-05-30

我来回答

有什么挑战？

2条答案

相关问题

热门标签

最新问答