Logstash,Filebeat,Spark Streaming,Kafka简要

x33g5p2x  于2022-07-13 转载在 Logstash  
字(0.8k)|赞(0)|评价(0)|浏览(423)

Logstash(data collector,数据收集器)
不负责生产数据、不负责存储数据,只是数据的搬运工。一种实时的大数据采集组件,即插即用。
通常,logstash做为数据泵,泵出日志数据,logstash本身可以实时的对数据做一定强度和复杂度的适配和封装(定制成格式化的JSON帧),即进行标准化工作。
logstash是行业内老牌的数据采集器。logstash本身是JRuby实现的,JRuby跑在JVM之上,在logstash早期的版本中,由于JVM和logstash两者的原因,性能在长期连续运行后表现不佳(这导致filebeta的诞生),但随着如今Java版本的不断迭代以及logstash自身的优化,性能问题不是主要问题。

Filebeat
与logsatsh作为EL(F)K框架的组件。一般会把Filebeat放在logstash的前端做实时日志采集,然后透传给logstash做数据的装配和标准化工作,原因是filebeat比较轻量级,但轻量级也意味着filebeat可定制化不强。Filebeat适合采集固定不变的日志文件夹下的全量日志数据。
一般会在Filebeat之后再放一套logstash,原因是通过Filebeta采集的原始数据一般难以满足高度定制化的要求,而logstash可以。即Data -> Filebeat -> logstash -> ES(或数据平台)。简单的说,Filebeat负责对原始日志数据采集,logstash除了能采集数据,还可以对原始日志数据做标准化工作。Filebeat适应于对原始数据标准化要求不高的业务场景。

Spark Streaming,spark
实时流计算框架,spark监听某个目录,一旦有文件数据产生就开始计算。

Kafka
分布式发布-订阅消息系统。
Kafka产生的背景,因为LinkedIn的ActiveMQ无法满足业务增长需要,进而开发出来的Kafka。

相关文章

微信公众号