ELK
可能是现如今最为流行,并且更新速度最快的开源大数据产品,由elastic
公司维护并完全开源。
ELK分别为:
-
Elasticsearch
: 核心中的核心组件,基于著名的全文检索引擎lucence
的一个分布式版本。由于扩展成分布式,容量和性能得到极大的提升,使得Elasticsearch
得以成为目前许多大数据产品和大数据架构的核心组件。 -
Logstash
: 一个灵活的数据传输和处理系统,在beats出来之前,还负责进行数据收集。Logstash
的任务,就是将各种各样的数据,经过配置转化规则,统一化存入Elasticsearch
。使用Ruby
开发的Logstash
在灵活性上,确实非常出色。不过性能一直是被诟病的问题。 -
Kibana
: 展示组件,基于angularjs
。从Elasticsearch
中读取数据并展示。具有强大而且灵活的界面配置。
由于Logstash
在数据收集上并不出色,而且作为agent,性能并不达标。elastic
发布了beats
系列轻量级采集组件。至此,elastic
形成了一个完整的生态链和技术栈,成为大数据市场的佼佼者。本文我们重点来谈一谈beats
。
beats
beats是一组轻量级采集程序的统称,这些采集程序包括并不限于:
- filebeat: 进行文件和目录采集,主要用于收集日志数据。
- metricbeat: 进行指标采集,指标可以是系统的,也可以是众多中间件产品的,主要用于监控系统和软件的性能。
- packetbeat: 通过网络抓包、协议分析,对一些请求响应式的系统通信进行监控和数据收集,可以收集到很多常规方式无法收集到的信息。
- Winlogbeat: 专门针对windows的event log进行的数据采集。
- Heartbeat: 系统间连通性检测,比如icmp, tcp, http等系统的连通性监控。
以上是elastic
官方支持的5种beats,事实上,伟大的开源力量早已创造出大大小小几十甚至上百中beats,只有你没想到的,没有beats做不到的。
为什么说beats是轻量级的呢?主要是beats在数据收集层面上并不进行过于复杂的数据处理,只是将数据简单的组织并上报给上游系统。另一方便,由于beats采用go语言开发,go是一种系统编程语言,具有并发友好以及部署方便的特点,能够在不依赖虚拟机的情况下运行,包大小通常也比较小。在跨平台上方面,beats与go语言保持一致支持linux,windows,freebsd和macos。beats的性能,明显好于大哥Logstash
,一个设计良好的go语言程序基本可以达到甚至超过java程序。
beats的架构
beats之所以有如此强大的开源支持,一个很大的原因是设计良好的代码框架。
libbeat
是beats的核心包,其中封装一个输出模块(Publisher
),输出模块可以负责将收集到的数据发送给Logstash
或者Elasticsearch
。由于go语言设计有channel,收集数据的逻辑代码与Publisher
都是通过channel通信的,耦合度的最低的。因此,开发一个收集器,完全不需要知道Publisher
的存在,程序运行的时候自然就“神奇”的把数据发往服务端了。除此之外,还封装了配置文件处理、日志处理、守护化等功能,方便开发者拓展beats的能力。
beats的生态
beats的官方维护可以说非常活跃的,笔者跟踪beats很长时间,也做过代码贡献,对此深有体会。所以beats有一个非常健康的生态系统。
被官方收录,但官方不负责维护的beat,称为Community beats,目前有几十种,皆为开源贡献的。还有许多散落在社区的beat。