背景:由于需要将探针数据中的服务器位置信息等数据可能是错误的,而我们自己有相对准确的数据,所以要自己来把这些信息附加到探针数据中。对于这个需求,最高效的做法应该就是自己开发logstash的插件,直接在logstash将这一步搞定。
具体步骤
生成插件模板
$:bin/logstash-plugin generate --type filter --name tesT
Creating /home/elk/logstash-7.3.1/logstash-filter-test
create logstash-filter-test/CHANGELOG.md
create logstash-filter-test/CONTRIBUTORS
create logstash-filter-test/DEVELOPER.md
create logstash-filter-test/Gemfile
create logstash-filter-test/LICENSE
create logstash-filter-test/README.md
create logstash-filter-test/Rakefile
create logstash-filter-test/docs/index.asciidoc
create logstash-filter-test/lib/logstash/filters/tesT.rb
create logstash-filter-test/logstash-filter-tesT.gemspec
create logstash-filter-test/spec/filters/tesT_spec.rb
create logstash-filter-test/spec/spec_helper.rb
修改插件模板
tesT.rb
是插件处理逻辑代码位置,内容如下:
# encoding: utf-8
require "logstash/filters/base"
# This filter will replace the contents of the default
# message field with whatever you specify in the configuration.
#
# It is only intended to be used as an .
class LogStash::Filters::Test < LogStash::Filters::Base
# Setting the config_name here is required. This is how you
# configure this filter from your Logstash config.
#
# filter {
# {
# message => "My message..."
# }
# }
#
config_name "tesT"
# Replace the message with this value.
config :message, :validate => :string, :default => "Hello World!"
public
def register
# Add instance variables
end # def register
public
def filter(event)
if @message
# Replace the event message with our message as configured in the
# config file.
event.set("message", @message)
end
# filter_matched should go in the last line of our successful code
filter_matched(event)
end # def filter
end # class LogStash::Filters::Test
register方法是初始化模块,在该方法中一般做一些初始化的工作,在这个方法中加载外部数据会在整个logstash运行的过程中一直存在与内存中,此时需要注意的是,如果加载的数据比较多,最好增加jvm heap的大小。config_name
定义调用插件时所以用的名字,也就是插件的名字。config
定义插件调用时需要设置的属性。config :message, :validate => :string, :default => "Hello World!"
设置了message
属性,必须是string
类型,初始值为"Hello World!"
,并且该语句会创建一个实例变量@message
。(ps:我使用ruby的hash数据结构加载了我需要给每条日志匹配的信息。)
filter方法会处理所有进入插件处理流畅的event,该方法只会在每次处理event时运行一次,意味着在这里加载的数据不会驻留在内存中。
修改Gemfile
logstash根目录中的Gemfile列出了logstash可用的所有插件及其路径,在该文件中添加gem "logstash-filter-tesT", :path => "./logstash-filter-test/"
。
使用插件
在logstash配置文件中使用我们定义的插件:
tesT{
message => "bye bye!"
}
此时,该插件会将所有的message替换为"bye bye!"
问题:插件所需要的第三方数据在logstash运行过程中是不是一直加载在内存中?
在register方法中加载数据后,整个运行过程中该数据都在内存中。
问题:插件的名字中用了大写字母会产生找不到插件的问题?有待验证。
经过验证,插件的名字中可以用大写字母,例如我的插件名字为tesT
,我需要在Gemfile文件中添加:
gem "logstash-filter-tesT", :path => "./logstash-filter-test/"
而我的插件ruby程序文件名为tesT.rb
,我的插件类名为LogStash::Filters::Test
,插件的路径为"./logstash-filter-test/"
。对于初学者的我来说,这足以引起混乱了。而开始找不到插件的问题就是因为在Gemfile文件中我写的是:
gem "logstash-filter-test", :path => "./logstash-filter-test/"
可以看出Gemfile中gem后跟是带了前缀的插件名字,所以为了避免不必要的麻烦,尽量使用全小写来命名插件名称!
问题:logstash的geoip插件加载的mmdb数据库文件是否比ruby hash数据结构效率更高,内存占用更少?
待研究...
问题:运用到到的项目中,我在register中加载了200m的数据,每次运行都会爆内存,然而我已经设置了30G的jvm heap了,这是为什么呢?
待研究...