Apache Flume

1 Flume介绍

Flume （flume官网）是 Cloudera 提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume 支持定制各类数据发送方，用于收集各类型数据；同时，Flume 提供对数据进行简单处理，并写到各种数据接受方（可定制）的能力。一般的采集需求，通过对 flume 的简单配置即可实现。针对特殊场景也具备良好的自定义扩展能力。因此，flume 可以适用于大部分的日常数据采集场景。

2 Flume运行机制

Flume 的核心是把数据从数据源(source)收集过来，在将收集到的数据送到指定的目的地(sink)。为了保证输送的过程一定成功，在送到目的地(sink)之前，会先缓存数据(channel),待数据真正到达目的地(sink)后，flume 在删除自己缓存的数据。

Flume 分布式系统中核心的角色是 agent，agent 本身是一个 Java 进程，一般运行在日志收集节点。flume 采集系统就是由一个个 agent 所连接起来形成。每一个 agent 相当于一个数据传递员，内部有三个组件：

Source：采集源，用于跟数据源对接，以获取数据；

Sink：下沉地，采集数据的传送目的，用于往下一级 agent 传递数据或者往最终存储系统传递数据；

Channel：agent 内部的数据传输通道，用于从 source 将数据传递到 sink；

在整个数据的传输的过程中，流动的是 event，它是 Flume 内部数据传输的最基本单元。event 将传输的数据进行封装。如果是文本文件，通常是一行记录，event 也是事务的基本单位。event 从 source，流向 channel，再到 sink，本身为一个字节数组，并可携带 headers(头信息)信息。event 代表着一个数据的最小完整单元，从外部数据源来，向外部的目的地去。一个完整的 event 包括：event headers、event body、event 信息，其中event 信息就是 flume 收集到的日记记录。

3 采集结构图

单个agent采集数据

多级agent串联采集数据

4 Flume 的的 load-balance 、failover

负载均衡是用于解决一台机器(一个进程)无法解决所有请求而产生的一种算法。 Load balanr cing Sink Processor 能够实现 load balance 功能，如下图Agent1 是一个路由节点，负责将 Channel 暂存的 Event 均衡到对应的多个 Sink组件上，而每个 Sink 组件分别连接到一个独立的 Agent 上

load-balance

Failover Sink Processor 能够实现 failover 功能，具体流程类似 loadbalance，但是内部处理机制与 load balance 完全不同。Failover Sink Processor 维护一个优先级 Sink 组件列表，只要有一个 Sink组件可用，Event 就被传递到下一个组件。故障转移机制的作用是将失败的 Sink降级到一个池，在这些池中它们被分配一个冷却时间，随着故障的连续，在重试之前冷却时间增加。一旦 Sink 成功发送一个事件，它将恢复到活动池。 Sink 具有与之相关的优先级，数量越大，优先级越高.

5 flume小案例

案例场景：

A、B 两台日志服务机器实时生产日志主要类型为 access.log、nginx.log、web.log

现在要求：把 A、B 机器中的 access.log、nginx.log、web.log 采集汇总到 C 机器上

然后统一收集到 hdfs 中。但是在 hdfs 中要求的目录为：

/source/logs/access/20160101/**

/source/logs/nginx/20160101/**

/source/logs/web/20160101/**

这里为了简单只设置A，C2台服务器，A收集到数据汇总到C机器，然后sink到HDFS中

案例实现：

（1）先启动hadoop集群，为的是Flume最后阶段sink到HDFS中

（2）下载Flume 软件并解压，配置java环境变量

（3）先进去A服务器，cd到flume的conf文件夹中创建配置文件，目的是为了收集数据发送到C服务器上

配置文件名:exec_source_hdfs_sink.conf

文件内容：

#定义agent名， source、channel、sink的名称

a1.sources = r1 r2 r3

a1.sinks = k1

a1.channels = c1

# Describe/configure the source

a1.sources.r1.type = exec

a1.sources.r1.command = tail -F /root/logs1/access.log

a1.sources.r1.interceptors = i1

a1.sources.r1.interceptors.i1.type = static

a1.sources.r1.interceptors.i1.key = type

a1.sources.r1.interceptors.i1.value = access

a1.sources.r2.type = exec

//tail -F 会追踪文件夹下新产生的文件

a1.sources.r2.command = tail -F /root/logs1/nginx.log

a1.sources.r2.interceptors = i2

//FLume自带的拦截器，如果拦截内容处理复杂，可以自定义拦截器开发

a1.sources.r2.interceptors.i2.type = static

a1.sources.r2.interceptors.i2.key = type

a1.sources.r2.interceptors.i2.value = nginx

a1.sources.r3.type = exec

a1.sources.r3.command = tail -F /root/logs1/web.log

a1.sources.r3.interceptors = i3

a1.sources.r3.interceptors.i3.type = static

a1.sources.r3.interceptors.i3.key = type

a1.sources.r3.interceptors.i3.value = web

# Describe the sink

a1.sinks.k1.type = avro

//C 服务器名称

a1.sinks.k1.hostname = hadoop2

a1.sinks.k1.port = 41414

# Use a channel which buffers events in memory

a1.channels.c1.type = memory

a1.channels.c1.capacity = 2000000

a1.channels.c1.transactionCapacity = 100000

# Bind the source and sink to the channel

a1.sources.r1.channels = c1

a1.sources.r2.channels = c1

a1.sources.r3.channels = c1

a1.sinks.k1.channel = c1

（4）再进入C服务器

进入flume的conf 文件夹中创建配置文件，接收A服务器中数据发送到HDFS中

配置文件名：avro_source_hdfs_sink.conf

文件内容：

#定义agent名， source、channel、sink的名称

a1.sources = r1

a1.sinks = k1

a1.channels = c1

#定义source

a1.sources.r1.type = avro

a1.sources.r1.bind = hadoop2

a1.sources.r1.port =41414

#添加时间拦截器

a1.sources.r1.interceptors = i1

a1.sources.r1.interceptors.i1.type = org.apache.flume.interceptor.TimestampInterceptor$Builder

#定义channels

a1.channels.c1.type = memory

a1.channels.c1.capacity = 20000

a1.channels.c1.transactionCapacity = 10000

#定义sink

a1.sinks.k1.type = hdfs

a1.sinks.k1.hdfs.path=hdfs://hadoop1:9000/ss/logs/%{type}/%Y%m%d

a1.sinks.k1.hdfs.filePrefix =events

a1.sinks.k1.hdfs.fileType = DataStream

a1.sinks.k1.hdfs.writeFormat = Text

#时间类型

#a1.sinks.k1.hdfs.useLocalTimeStamp = true

#生成的文件不按条数生成

a1.sinks.k1.hdfs.rollCount = 0

#生成的文件不按时间生成

a1.sinks.k1.hdfs.rollInterval = 30

#生成的文件按大小生成

a1.sinks.k1.hdfs.rollSize = 10485760

#a1.sinks.k1.hdfs.rollSize =0

#批量写入hdfs的个数

a1.sinks.k1.hdfs.batchSize = 20

#flume操作hdfs的线程数（包括新建，写入等）

a1.sinks.k1.hdfs.threadsPoolSize=10

#操作hdfs超时时间

a1.sinks.k1.hdfs.callTimeout=30000

#组装source、channel、sink

a1.sources.r1.channels = c1

a1.sinks.k1.channel = c1

（5）这里是先启动A服务器呢？还是启动C服务器呢？当然先启动C服务器接收数据。

进入C服务器flume中

bin/flume-ng agent -c conf -f conf/avro_source_hdfs_sink.conf -name a1 -Dflume.root.logger=DEBUG,console

如果成功的话，界面会有start提示关键字

再进入A 服务器中

bin/flume-ng agent -c conf -f conf/exec_source_hdfs_sink.conf -name a1 -Dflume.root.logger=DEBUG,console

然后可以用shell 命令在A服务器中的logs1文件夹下创建文件，观察HDFS 中是否有文件生成

可以去网站页面查看，也可以用命令查看

当然进去文件夹中，按要求时间格式存放着如20181225