Filebeat实践笔记（1）

背景

根据公司的业务需求，研究如何使用Filebeat收集信息，并应用于大数据的业务场景之中。

第一部分先从Filebeat的引入开始，实现一个从nginx读取数据，并通过kafka写入hdfs的整个配置过程，其中的数据流向大概是这样的

Nginx(log) -> Filebeat -> Kafka -> Flume -> HDFS

第二部分会对Filebeat的filter进行深入的研究，并从MongoDB获取数据

从Filebeat到HDFS

基于Nginx的日志收集（输出到文件）

ssh到某生产服务器，其上会直接产生大量的nginx日志
在此机器上下载filebeat，并解压缩到特定目录，生成指向filebeat目录的软连接

修改filebeat.yml文件，修改后可以用sudo ./filebeat test config命令进行检测

关闭input中type为log的输入：enabled: false（为了使用nginx的日志作为输入）
关闭elasticsearch的输出
增加到文件的输出

#------------------------------- File output -----------------------------------
output.file:
# Boolean flag to enable or disable the output module.
    enabled: true

# Path to the directory where to save the generated files. The option is
# mandatory.
# fbout是输出文件的所在目录
    path: "/var/log/fbout"

使用sudo ./filebeat module enable nginx命令使nginx作为输入的配置生效
进入modules.d目录，调整nginx.yml文件，修改error.log和access.log文件的所在目录
使用sudo ./filebeat setup -e命令初始化filebeat
使用sudo ./filebeat -e命令运行filebeat，开始日志收集

输出改为推送到kafka，并输出到HDFS

创建一个新的topic，分区为21，合理的设置分区，可以提高并行吞吐率

kafka-topics --create --zookeeper localhost:2181 --replication-factor 1 --partitions 21 --topic EventFromFilebeat

# 查看topic信息
kafka-topics --zookeeper localhost:2181 --topic EventFromFilebeat --describe

修改filebeat.yml，增加kafka的输出

#------------------------------- Kafka output ----------------------------------
output.kafka:
  # Boolean flag to enable or disable the output module.
  enabled: true

  # The list of Kafka broker addresses from where to fetch the cluster metadata.
  # The cluster metadata contain the actual Kafka brokers events are published
  # to.
  hosts: ["bigdata01:9092","bigdata02:9092","bigdata03:9092"]

  # The Kafka topic used for produced events. The setting can be a format string
  # using any event field. To set the topic from document type use `%{[type]}`.
  topic: EventFromFilebeat

要把ip和host的对应关系，维护到/etc/hosts文件里，否则会报错

{大数据服务器内网IP-01} bigdata01
{大数据服务器内网IP-02} bigdata02
{大数据服务器内网IP-03} bigdata03

使用flume作为pipeline向HDFS发送数据

在3个机器上下载flume并解压缩，放到相应目录

创建配置文件（source, sink...），文件名是flume-conf-kafka2hdfs.properties

# flume-conf-kafka2hdfs.properties
# ------------------- 定义数据流----------------------
# source的名字
flume2HDFS_agent.sources = source_from_kafka
# channels的名字，建议按照type来命名
flume2HDFS_agent.channels = mem_channel
# sink的名字，建议按照目标来命名
flume2HDFS_agent.sinks = hdfs_sink

#auto.commit.enable = true

## kerberos config ##
#flume2HDFS_agent.sinks.hdfs_sink.hdfs.kerberosPrincipal = flume/datanode2.hdfs.alpha.com@OMGHADOOP.COM
#flume2HDFS_agent.sinks.hdfs_sink.hdfs.kerberosKeytab = /root/apache-flume-1.6.0-bin/conf/flume.keytab


#-------- kafkaSource相关配置-----------------
# 定义消息源类型
# For each one of the sources, the type is defined
flume2HDFS_agent.sources.source_from_kafka.type = org.apache.flume.source.kafka.KafkaSource
flume2HDFS_agent.sources.source_from_kafka.channels = mem_channel
flume2HDFS_agent.sources.source_from_kafka.batchSize = 5000

# 定义kafka所在的地址
#flume2HDFS_agent.sources.source_from_kafka.zookeeperConnect = 10.129.142.46:2181,10.166.141.46:2181,10.166.141.47:2181/testkafka
# 据文档描述，只要配置kafka的集群即可，不需要单独配置zookeeperConnect了
flume2HDFS_agent.sources.source_from_kafka.kafka.bootstrap.servers = bigdata01:9092,bigdata02:9092,bigdata03:9092

# 配置消费的kafka topic
#flume2HDFS_agent.sources.source_from_kafka.topic = itil_topic_4097
flume2HDFS_agent.sources.source_from_kafka.kafka.topics = EventFromFilebeat2

# 配置消费的kafka groupid
#flume2HDFS_agent.sources.source_from_kafka.groupId = flume4097
flume2HDFS_agent.sources.source_from_kafka.kafka.consumer.group.id = flumetest

#---------hdfsSink 相关配置------------------
# The channel can be defined as follows.
flume2HDFS_agent.sinks.hdfs_sink.type = hdfs
# 指定sink需要使用的channel的名字,注意这里是channel
#Specify the channel the sink should use
flume2HDFS_agent.sinks.hdfs_sink.channel = mem_channel
#flume2HDFS_agent.sinks.hdfs_sink.filePrefix = %{host}
# 可以通过hdfs getconf -nnRpcAddresses命令查找hdfs的NameNode的rpc地址
flume2HDFS_agent.sinks.hdfs_sink.hdfs.path = hdfs://bigdata01:8022/user/zhaoyan/nginx/%y-%m-%d/%H%M

#File size to trigger roll, in bytes (0: never roll based on file size)
flume2HDFS_agent.sinks.hdfs_sink.hdfs.rollSize = 0
#Number of events written to file before it rolled (0 = never roll based on number of events)
flume2HDFS_agent.sinks.hdfs_sink.hdfs.rollCount = 0
flume2HDFS_agent.sinks.hdfs_sink.hdfs.rollInterval = 3600
flume2HDFS_agent.sinks.hdfs_sink.hdfs.threadsPoolSize = 30
#flume2HDFS_agent.sinks.hdfs_sink.hdfs.codeC = gzip
#flume2HDFS_agent.sinks.hdfs_sink.hdfs.fileType = CompressedStream
flume2HDFS_agent.sinks.hdfs_sink.hdfs.fileType=DataStream
flume2HDFS_agent.sinks.hdfs_sink.hdfs.writeFormat=Text

#------- memoryChannel相关配置-------------------------
# channel类型
# Each channel's type is defined.
flume2HDFS_agent.channels.mem_channel.type = memory
# Other config values specific to each type of channel(sink or source)
# can be defined as well
# channel存储的事件容量
# In this case, it specifies the capacity of the memory channel
flume2HDFS_agent.channels.mem_channel.capacity = 100000
# 事务容量
flume2HDFS_agent.channels.mem_channel.transactionCapacity = 10000

注：以上配置文件参考这篇文章

执行以下命令开启pipeline作为kafka的consumer，然后再开启filebeat即可

# 注意增加最大内存的设置，修改flume-ng文件不好使
flume-ng agent -Xmx1024m -n flume2HDFS_agent -f ../kafka-hdfs/flume-conf-kafka2hdfs.properties

最终在HDFS中呈现的数据如下图所示

HDFS中的内容

可以用hdfs dfs -cat /path/to/file查看文件的内容

最后编辑于：2018.07.12 14:35:59

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,635评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,628评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,971评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,986评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,006评论 6赞 394
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,784评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,475评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,364评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,860评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,008评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,152评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,829评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,490评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,035评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,156评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,428评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,127评论 2赞 356

Filebeat实践笔记（1）

背景

从Filebeat到HDFS

基于Nginx的日志收集（输出到文件）

输出改为推送到kafka，并输出到HDFS

推荐阅读更多精彩内容