Flume架构与实践

Flume是一款在线数据采集的系统，典型的应用场景是作为数据的总线，在线的进行日志的采集、分发与存储，它是一个微内核，可扩展的架构设计，典型的部署图如下：

Flume与Kafka的比较

1、Kafka是pull based，Flume是Push Based，如果你有很多下游的Data Consumer消费同一份数据，需要做限流、降级等个性化的实现，个人建议用Kafka。

2、Kafka有Replication，Flume配置起来很复杂，如果要求很高的容错性(Data High Availability)，个人建议用Kafka。

3、若果需要更多的一站式Sink实现，例如HDFS，HBase Sink 等，个人建议用Flume。

4、个人推荐的架构Agent—Kafka—flume。

Flume基本概念

Event

Event是flume端到端传输的基本单元，它由数据本身和一些头域信息构成，头域信息的开销对整个数据采集来说是透明的，由K-V构成的Map信息，主要用于上下信息的传递。

Client

它主要用于产生Events，并将它们发送到一个或多个Agents，常见的有Flume log4j Appender、LoadBalancingRpcClient、FailoverRpcClient，它不是部署图中的必须部分。

Source

它是数据源，从特定渠道接受events，将它存储到Channel中，常见Source有如下分类

Agent-to-Agent的Source

Avro Source、ThriftSource

自产生Event的Source

Exec Source、SpoolingDirectory Source

与知名系统对接的Source

Kafka Source、Syslog Sources

Channel

它缓存接收到的events直到它们被Sinks节点消费完成，不同的Channel提供不同持久化层级：

Memory Channel:易失，重启丢数据。

File Channel:以WAL文件为支持，保证数据的本地持久化，重启数据不丢失。

JDBC Channel:以特定的数据库为备份。

所有的通道的存取操作都有“事务”机制的保证，对顺序性是一种弱保护的机制。可以同时对接任意个数的Sources、Sinks。它解耦了upstream与downstream的依赖关系，是整个Flow可靠性、可用性的关键所在。

Sink

它主要从特定的Channel中获取数据，将数据可靠的传输到下一个目的地，保证At least once的消费，一个Sink有且只有一个Channel；常见Sink有

Terminal sink

HDFS Sink、File RollSink、ElasticSearchSink、KafkaSink

Agent-to-Agent Sink

Avro Sink、ThriftSink

Agent

它是一个拥有Sources、Channels、Sinks、将events对象进行透明传输的容器进程。它是Flume数据流的基础组件，提供了生命周期管理、配置动态生效、数据流监控等基本功能。

Configuration

一个配置文件可以同时配置多个Agent，只有指定agent名称相关的配置才会被加载，配置错误的组件在加载的时候输出一个条告警日志，然后会被忽略，Agent支持配置的动态加载。

# Name the components on this agent

a3.sources = r3

a3.sinks = k3

a3.channels = c3

#Describe/configure the source

a3.sources.r3.type= avro

a3.sources.r3.bind=0.0.0.0

a3.sources.r3.port=28080

# Describe the sink

a3.sinks.k3.type =hdfs

a3.sinks.k3.hdfs.path= hdfs://10.0.53.81:9000/%{savePath}/%Y-%m-%d

a3.sinks.k3.hdfs.callTimeout=300000

a3.sinks.k3.hdfs.filePrefix=log

a3.sinks.k3.hdfs.rollInterval=3600

a3.sinks.k3.hdfs.rollSize=1073741824

a3.sinks.k3.hdfs.hdfs.batchSize=4000

a3.sinks.k3.hdfs.threadsPoolSize=30

a3.sinks.k3.hdfs.rollTimerPoolSize=3

a3.sinks.k3.hdfs.rollCount=0

a3.sinks.k3.hdfs.fileType= DataStream

a3.sinks.k3.hdfs.writeFormat= Text

a3.sinks.k3.serializer=text

a3.sinks.k3.serializer.appendNewline=false

a3.sinks.k3.hdfs.minBlockReplicas=1

# Use a channel which buffers events in memory

a3.channels.c3.type=file

a3.channels.c3.checkpointDir=/data/flume/channel/filechannel_3/checkpointDir

a3.channels.c3.dataDirs=/data/flume/channel/filechanne1_3/dataDirs

a3.channels.c3.keep-alive= 10

a3.channels.c3.transactionCapacity=10000

a3.channels.c3.capacity=104857600

# Bind the source and sink to the channel

a3.sources.r3.channels= c3 c

a3.sinks.k3.channel= c3

Flume基本原理

总体介绍

1、客户端发送events到Agents。

2、Agent拥有Source, Interceptors, Channel Selectors, Channels, Sink Processors and Sinks等组件。Source接受Events,经过Interceptor(s)过滤,根据Channel Selector将它们放置到channel(s)中，Sink Processor选择一个Sink从指定的Channel获取Events发送到配置的下一跳节点。

3、Channel的存、取操作是通过“事务的方式”去保证了单节点的消息投递的可靠性；Channel持久化保证了端到端的可靠性。

Flume-Sources

Sources的基本功能

1、从外部的Client或者内部的Sink获取events。

2、将接收到的events存到配置的channel(s)，保证操作的“事务性”。

3、数据分流到不同的目的地

Sources的可用性

1、channel侧put数据的事务保证

2、可靠外部客户端的的异常重试（Avro

sink、LoadBalancingRpcClient）

Flume-Channels

Channels的基本功能

1、作为sources/sinks间的Buffer，能有效抵挡下游消费者的短暂的不可用，下游消费者的消费速度的不匹配。

2、解耦了sources、sinks。

3、多个sources/sinks可以共享同一个channel。

Channels的事务

与DB的事务不是一个概念，它的目标就是保证消息的At Least Once消费，事务是Channel强相关的，它保证了Events一旦“committed”到一个channel，它只有在下游消费者消费并返回了committed.”才会从队列中移除，基本流程如下：

1、Source 1产生的Event, “put” and “committed”到Channel 1。

2、Sink 1从Channel 1中获取并发送到Source 2。

3、Source 2 “puts” and “commits”到Channel 2。

4、Source 2发送成功到Sink 1. Sink 1发送commits确认已“take“成功，将这个event从channel1中删除。

这样就保证了“一批数据的操作的事务性“

Memory Channel

events存储在堆中，存取速度非常快，但是系统Crash、或者进程退出时，存在events丢失。

File Channel

events持久化到本地文件系统中，存取速度相对较慢，但是可靠性高，基本流程如下：

1、events以指定大小存储在log files，持久化到磁盘中

2、指向event的指针（logID+offset）存放在内存队列中

3、queue当前的状态就是events的当前存储状态

4、queue会被周期性的同步到磁盘中- checkpoint

5、channel重启时checkpoint-mmap-ed

6、从上次checkpoint发生的put/take/commit/rollback通过日志回放恢复

Flume-Sinks

它主要从特定的Channel中获取数据，将数据可靠的传输到下一个目的地，保证At least once的消费

HDFS Sink

a3.sinks.k4.type =hdfs

a3.sinks.k4.hdfs.path= hdfs://10.0.53.81:9000/%{savePath}/%Y-%m-%d/%H

a3.sinks.k4.hdfs.callTimeout=300000

a3.sinks.k4.hdfs.filePrefix=log

a3.sinks.k4.hdfs.rollInterval=600

a3.sinks.k4.hdfs.rollSize=1073741824

a3.sinks.k4.hdfs.hdfs.batchSize=4000

a3.sinks.k4.hdfs.threadsPoolSize=30

a3.sinks.k4.hdfs.rollTimerPoolSize=3

a3.sinks.k4.hdfs.rollCount=0

a3.sinks.k4.hdfs.fileType= DataStream

a3.sinks.k4.hdfs.writeFormat= Text

a3.sinks.k4.serializer=text

a3.sinks.k4.serializer.appendNewline=false

a3.sinks.k4.hdfs.minBlockReplicas=1

Contextual Routing

通过Interceptors与Channel Selectors来达到Event的路由功能，例如Terminal Sinks可以直接使用头域信息进行目标Sink节点的选择

Interceptor

它主要用来对流入Source的Event对象进行修饰和过滤，当前内置的Interceptors支持添加时间戳、主机、静态标签等头域信息；支持用户自定义的Interceptor。

Channel Selector

它允许Source根据Event头域的标签信息，从所有的Channels中选出Event对应的Channel；目前内置的Channel Selectors有：

Replicating:将Event应用到所有对应Channel中。

Multiplexing:根据头域选择对应的Channel。

Flume可用性与可靠性

Flume可用性设计

Client可用性

LoadBalancingRpcClient、FailoverRpcClient，保证了Client侧的高可用性。

Channel可用性

Memory Channel、FileChannel、JDBC Channel的可用性递增，性能递减。

Sink Processor

它负责从指定的SinkGroup中调用一个Sink节点，由Sink Runner负责调度，类似做了一层代理；一个Sink节点只能存在于一个SinkProcessor中，如果没有配置任何SinkGroup，默认是在Default Sink Processor中。

目前内置Sink Process有 Load Balancing Sink Processor--RANDOM,ROUND_ROBIN 、Failover Sink Processor、Default Sink Processor

Flume可靠性设计

channel的事务

保证了Agent间数据交换的At least once消费

内置的负载均衡和FailOve机制

channel的持久化

保证了Agent挂了之后的自动恢复，保证了消息的At least once消费

节点不可用

1、通过冗余的topologies来解决，Flume允许你将你数据流复制到冗余的topologies，这个对于应对磁盘损坏和单点失效有用，代价较大，topology会比较复杂。

2、如果承载channel的磁盘做了Raid，重新挂在，启动agent，也能很快的进行数据恢复，例如Kafka channel/JDBC Channel

3、允许部分数据的丢失。

4、概率较小，推荐在应用层进行回放的操作。

Flume的调优

选择正确的Channel

memory channel：低延时，高吞吐，可靠性弱。

file channel：延时相对高，吞吐相对小，可靠性较高。

disk-based channels10’s of MB/s

memory based channels100’s of MB/s

选择合适的capacity

根据你容忍的down机时间而定，capacity越大，恢复需要的时间越长，同时存在消费延时的问题。

选择合适的batch size

batch size越大吞吐量越高，异常重传的代价高，一般推荐100 or 1,000 or 10,000这个跟单个event的大小也有关

client与agent的比例配比

20:1 or 30:1的客户端agent比例比较适中

GC参数的选择

根据应用的具体情况进行调优

agent的监控

通过agent暴露的metrice服务，关注ChannelSize找到数据流中的瓶颈

http://10.0.52.28:34545/metrics

Flume应用

业界应用

我司应用

使用的是Client+Avro Source+ Replicating/ Multiplexing+TimeStampInterceptor+FileChannel/MemChannel+Failover sink Processr/Loadbalance SinkProcess+HdfsSink/ ElasticSink/FileSink/CustomSource

Flume架构与实践

Flume架构与实践

Flume与Kafka的比较

Flume基本概念

Event

Client

Source

Agent-to-Agent的Source

自产生Event的Source

与知名系统对接的Source

Channel

Sink

Terminal sink

Agent-to-Agent Sink

Agent

Configuration

总体介绍

Flume-Sources

Sources的基本功能

Sources的可用性

Flume-Channels

Channels的基本功能

Channels的事务

Memory Channel

File Channel

Flume-Sinks

HDFS Sink

Contextual Routing

Interceptor

Channel Selector

Flume可用性与可靠性

Flume可用性设计

Client可用性

Channel可用性

Sink Processor

Flume可靠性设计

channel的事务

channel的持久化

节点不可用

Flume的调优

选择正确的Channel

选择合适的capacity

选择合适的batch size

client与agent的比例配比

GC参数的选择

agent的监控

Flume应用

业界应用

我司应用

推荐阅读更多精彩内容