有什么挑战?

p5cysglq  于 2021-05-30  发布在  Hadoop
关注(0)|答案(2)|浏览(314)

我在很多地方读过关于流数据的文章,但我只是想了解在使用map-reduce技术处理流数据时所面临的挑战?
i、 e.apache flume、apache storm等框架存在的原因。
请分享你的建议和想法。
谢谢,拉尼特

5gfr0r5j

5gfr0r5j1#

有很多技术,其中很多都运行在hadoop框架上。
较老的hadoop服务(如hive)往往速度较慢,通常用于批处理作业,而不是流式处理。随着流媒体变得越来越有必要,其他服务如storm或spark等也浮出水面,这些服务旨在加快执行速度,并与kafka等流媒体消息队列集成。
不过,在数据分析中,大多数时间处理都不是实时的:历史数据可能以批处理模式进行处理,以提取模型,然后用于实时分析,因此“流”系统通常基于lambda体系结构http://lambda-architecture.net/
spark这样的服务试图集成所有组件,spark streaming用于速度层,spark sql用于服务层,spark mllib用于建模,所有这些都基于hadoop分布式文件系统(hdfs)用于复制大容量存储。
flume有助于将数据从源定向到hdfs进行原始存储,但是为了处理它,使用了storm或spark。
希望有帮助。

2nbm6dog

2nbm6dog2#

你的问题没有答案。但我假设您想了解在map reduce环境中处理流数据的挑战。
1) map reduce主要用于批处理。它用于处理磁盘中大量的数据。
2) 流数据是一种高速的数据流,它来自于各种来源,如web应用程序点击流、社交媒体日志、twitter标签、应用程序日志等。
3) 事件流可能以无状态方式(假设每个事件都是唯一的)或有状态方式(收集数据2秒钟并处理它们)进行处理,但批处理应用程序没有任何此类要求。
4) 流媒体应用程序需要交付/流程保证。例如,框架必须提供“精确一次”的交付/处理机制,以便它能够毫无故障地处理所有流事件。这在批处理中不是一个挑战,因为所有的数据都可以在本地获得。
5) 外部连接器:流框架必须支持外部连接,以便从各种来源实时读取数据,正如我们在(2)中讨论的那样。这不是批量的挑战,因为数据是本地可用的。
希望这有帮助。

相关问题