1.Flume 采集数据会丢失吗?
不会,Channel 存储可以存储在File 中,数据传输自身有事务。并且根据at-least-once的语义保证
注:这个地方指Sorurce 到Channel
2.Flume 与 Kafka 的选取?
采集层主要可以使用Flume、Kafka 两种技术。
Flume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API。
Kafka:Kafka 是一个可持久化的分布式的消息队列。
Kafka 是一个非常通用的系统。你可以有许多生产者和很多的消费者共享多个主题Topics。相比之下,Flume 是一个专用工具被设计为旨在往HDFS,HBase 发送数据。它对HDFS 有特殊的优化,并且集成了Hadoop 的安全特性。所以,Cloudera 建议如果数据被多个系统消费的话,使用kafka;如果数据被设计给Hadoop 使用,使用Flume。正如你们所知Flume 内置很多的source 和sink 组件。然而,Kafka 明显有一个更小的生产消费者生态系统,并且Kafka 的社区支持不好。希望将来这种情况会得到改善,但是目前:使用Kafka 意味着你准备好了编写你自己的生产者和消费者代码。如果已经存在的Flume Sources 和Sinks 满足你的需求,并且你更喜欢不需要任何开发的系统,请使用Flume。Flume 可以使用拦截器实时处理数据。这些对数据屏蔽或者过量是很有用的。Kafka 需要外部的流处理系统才能做到。
Kafka 和 Flume 都是可靠的系统,通过适当的配置能保证零数据丢失。然而,Flume 不支持副本事件。于是,如果Flume 代理的一个节点奔溃了,即使使用了可靠的文件管道方式,你也将丢失这些事件直到你恢复这些磁盘。如果你需要一个高可靠行的管道,那么使用Kafka 是个更好的选择。
Flume 和 Kafka 可以很好地结合起来使用。如果你的设计需要从Kafka 到Hadoop 的流数据,使用Flume 代理并配置Kafka 的Source 读取数据也是可行的:你没有必要实现自己的消费者。你可以直接利用Flume 与HDFS 及HBase 的结合的所有好处。你可以使用ClouderaManager 对消费者的监控,并且你甚至可以添加拦截器进行一些流处理。
3.数据怎么采集到 Kafka,实现方式?
使用官方提供的flumeKafka 插件,插件的实现方式是自定义了flume 的sink,将数据从channle 中取出,通过kafka 的producer 写入到kafka 中,可以自定义分区等。案例看课程文件
4.flume管道内存,flume 宕机了数据丢失怎么解决?
1)Flume 的channel 分为很多种,可以将数据写入到文件。
2)防止非首个 agent 宕机的方法数可以做集群或者主备
5. flume和kafka采集日志区别,采集日志时中间停了,怎么记录之前的日志?
Flume 采集日志是通过流的方式直接将日志收集到存储层,而 kafka 是将缓存在kafka集群,待后期可以采集到存储层。
Flume 采集中间停了,可以采用文件的方式记录之前的日志,而 kafka 是采用offset 的方式记录之前的日志。
6.flume 有哪些组件,flume 的source、channel、sink 具体是做什么的?
1)source:用于采集数据,Source 是产生数据流的地方,同时Source 会将产生的数据
流传输到Channel,这个有点类似于Java IO 部分的Channel。
2)channel:用于桥接Sources 和Sinks,类似于一个队列。
3)sink:从Channel 收集数据,将数据写到目标源(可以是下一个Source,也可以是HDFS
或者HBase)。
7. 什么是Flume的选择器
官方文档中关于Channel Selectors 有两种类型,
Replicating Channel Selector (default) 和 Multilexing Channel Selector
区别:Replicating 会将source 过来的events 发往所有channel,而Multiplexing 可以选择该发往哪些Channel.
8.Flume组成架构?
9.FlumeAgent内部原理?
10.Flume使用场景
线上数据一般主要是落地(存储到磁盘)或者通过socket传输给另外一个系统,这种情况下,你很难推动线上应用或服务去修改接口,实现直接向kafka里写数据,这时候你可能就需要flume这样的系统帮你去做传输。(Nginx)日志
11.Flume与Kafka的选取
采集层主要可以使用Flume、Kafka两种技术。
Flume:Flume 是管道流方式,提供了很多的默认实现,让用户通过参数部署,及扩展API。
Kafka:Kafka是一个可持久化的分布式的消息队列。
Kafka 是一个非常通用的系统。你可以有许多生产者和很多的消费者共享多个主题Topics。相比之下,Flume是一个专用工具被设计为旨在往HDFS,HBase发送数据。它对HDFS有特殊的优化,并且集成了Hadoop的安全特性。所以,Cloudera 建议如果数据被多个系统消费的话,使用kafka;如果数据被设计给Hadoop使用,使用Flume。
正如你们所知Flume内置很多的source和sink组件。然而,Kafka明显有一个更小的生产消费者生态系统,并且Kafka的社区支持不好。希望将来这种情况会得到改善,但是目前:使用Kafka意味着你准备好了编写你自己的生产者和消费者代码。如果已经存在的Flume Sources和Sinks满足你的需求,并且你更喜欢不需要任何开发的系统,请使用Flume。
Flume可以使用拦截器实时处理数据。这些对数据屏蔽或者过量是很有用的。Kafka需要外部的流处理系统才能做到。
Kafka和Flume都是可靠的系统,通过适当的配置能保证零数据丢失。然而,Flume不支持副本事件。于是,如果Flume代理的一个节点奔溃了,即使使用了可靠的文件管道方式,你也将丢失这些事件直到你恢复这些磁盘。如果你需要一个高可靠行的管道,那么使用Kafka是个更好的选择。
Flume和Kafka可以很好地结合起来使用。如果你的设计需要从Kafka到Hadoop的流数据,使用Flume代理并配置Kafka的Source读取数据也是可行的:你没有必要实现自己的消费者。你可以直接利用Flume与HDFS及HBase的结合的所有好处。你可以使用Cloudera Manager对消费者的监控,并且你甚至可以添加拦截器进行一些流处理。
12.flume管道内存,flume宕机了数据丢失怎么解决
1)Flume的channel分为很多种,可以将数据写入到文件。
2)防止非首个agent宕机的方法数可以做集群或者主备
13.flume不采集Nginx日志,通过Logger4j采集日志,优缺点是什么?
优点:Nginx的日志格式是固定的,但是缺少sessionid,通过logger4j采集的日志是带有sessionid的,而session可以通过redis共享,保证了集群日志中的同一session落到不同的tomcat时,sessionId还是一样的,而且logger4j的方式比较稳定,不会宕机。
缺点:不够灵活,logger4j的方式和项目结合过于紧密,而flume的方式比较灵活,拔插式比较好,不会影响项目性能。
14.flume和kafka采集日志区别,采集日志时中间停了,怎么记录之前的日志。
Flume采集日志是通过流的方式直接将日志收集到存储层,而kafka试讲日志缓存在kafka集群,待后期可以采集到存储层。
Flume采集中间停了,可以采用文件的方式记录之前的日志,而kafka是采用offset的方式记录之前的日志。
15. Flume调优
source :
1 .增加 source 个数,可以增大 source 读取能力。
2 .具体做法 : 如果一个目录下生成的文件过多,可以将它拆分成多个目录。每个目录都配置一个 source 。
3 .增大 batchSize : 可以增大一次性批处理的 event 条数,适当调大这个参数,可以调高 source 搬运数据到 channel 的性能。
channel :
1.memory :性能好,但是,如果发生意外,可能丢失数据。
2.使用 file channel 时,dataDirs 配置多个不同盘下的目录可以提高性能。
3.transactionCapacity 需要大于 source 和 sink 的 batchSize 参数
sink :增加sink 个数可以增加消费 event 能力