1、Flume概述

Flume概念

Flume是Cloudera提供的一个高可用的，高可靠的，分布式的海量日志采集、聚合和传输的系统。Flume基于流式架构，灵活简单
下图展示了为什么要使用Flume

为什么使用Flume.png

Flume最主要的作用就是，实时读取服务器本地磁盘的数据，将数据写入到HDFS

Flume组成架构

借用Flume官网的图，如下图

flume组成架构.png

组成架构详解如下图所示

Flume架构详解.png

下面详细介绍下Flume架构中的组件

Agent

Agent是一个JVM进程，它以事件的形式将数据从源头送至目的，是Flume数据传输的基本单元。
Agent主要有3个部分组成，Source、Channel、Sink

Source

Source是负责接收数据到Flume Agent的组件。Source组件可以处理各种类型、各种格式的日志数据，包括avro、thrift、exec、jms、spooling directory、netcat、sequence generator、syslog、http、legacy

Channel

Channel是位于Source和Sink之间的缓冲区。因此，Channel允许Source和Sink运作在不同的速率上。Channel是线程安全的，可以同时处理几个Source的写入操作和几个Sink的读取操作。
Flume自带两种Channel：Memory Channel和File Channel。
Memory Channel是内存中的队列。Memory Channel在不需要关心数据丢失的情景下适用。如果需要关心数据丢失，那么Memory Channel就不应该使用，因为程序死亡、机器宕机或者重启都会导致数据丢失。
File Channel将所有事件写到磁盘。因此在程序关闭或机器宕机的情况下不会丢失数据

Sink

Sink不断地轮询Channel中的事件且批量地移除它们，并将这些事件批量写入到存储或索引系统、或者被发送到另一个Flume Agent。
Sink是完全事务性的。在从Channel批量删除数据之前，每个Sink用Channel启动一个事务。批量事件一旦成功写出到存储系统或下一个Flume Agent，Sink就利用Channel提交事务。事务一旦被提交，该Channel从自己的内部缓冲区删除事件。
Sink组件目的地包括hdfs、logger、avro、thrift、ipc、file、null、HBase、solr、自定义

Event

传输单元，Flume数据传输的基本单元，以事件的形式将数据从源头送至目的地

Flume拓扑结构

Flume拓扑结构如下面图片所示

Flume Agent连接.png

单Source，多channel、sink.png

Flume负载均衡.png

Flume Agent 聚合.png

Flume Agent内部原理

Flume内部原理如图所示

Flume内部原理.png

最后编辑于：2018.11.23 09:57:16

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

1、Flume概述

1、Flume概述

Flume概念

Flume组成架构

Agent

Source

Channel

Sink

Event

Flume拓扑结构

Flume Agent内部原理

相关阅读更多精彩内容

友情链接更多精彩内容