Logstash（data collector，数据收集器）
不负责生产数据、不负责存储数据，只是数据的搬运工。一种实时的大数据采集组件，即插即用。
通常，logstash做为数据泵，泵出日志数据，logstash本身可以实时的对数据做一定强度和复杂度的适配和封装（定制成格式化的JSON帧），即进行标准化工作。
logstash是行业内老牌的数据采集器。logstash本身是JRuby实现的，JRuby跑在JVM之上，在logstash早期的版本中，由于JVM和logstash两者的原因，性能在长期连续运行后表现不佳（这导致filebeta的诞生），但随着如今Java版本的不断迭代以及logstash自身的优化，性能问题不是主要问题。

Filebeat
与logsatsh作为EL（F）K框架的组件。一般会把Filebeat放在logstash的前端做实时日志采集，然后透传给logstash做数据的装配和标准化工作，原因是filebeat比较轻量级，但轻量级也意味着filebeat可定制化不强。Filebeat适合采集固定不变的日志文件夹下的全量日志数据。
一般会在Filebeat之后再放一套logstash，原因是通过Filebeta采集的原始数据一般难以满足高度定制化的要求，而logstash可以。即Data -> Filebeat -> logstash -> ES（或数据平台）。简单的说，Filebeat负责对原始日志数据采集，logstash除了能采集数据，还可以对原始日志数据做标准化工作。Filebeat适应于对原始数据标准化要求不高的业务场景。

Spark Streaming，spark
实时流计算框架，spark监听某个目录，一旦有文件数据产生就开始计算。

Kafka
分布式发布-订阅消息系统。
Kafka产生的背景，因为LinkedIn的ActiveMQ无法满足业务增长需要，进而开发出来的Kafka。

Logstash，Filebeat，Spark Streaming，Kafka简要

相关文章

热门标签

最新文章