Flume
1.分布式的可靠的可用的系统,高效的从不同数据源收集聚合迁移大量数据到一个集中的数据存储
2.安装部署比较logstash复杂
3.同样以配置文件为中心 提供了JavaAPI
4.是一个完整的基于插件的架构有独立开发的第三方插件
5.三层架构:source channel sink
6.Flume使用基于事务的数据传递方式来保证事件传递的可靠性。
7.Flume的配置是真繁琐,source,channel,sink的关系在配置文件里面交织在一起,没有Logstash那么简单明了。
Logstash
1.Logstash比较偏重于字段的预处理;而Flume偏重数据的传输;
2.Logstash有几十个插件,配置灵活;FLume则是强调用户的自定义开发(source和sink的种类也有一二十个吧,channel就比较少了)。
3.Logstash的input和filter还有output之间都存在buffer,进行缓冲;Flume直接使用channel做持久化(可以理解为没有filter)
4.Flume比较看重数据的传输,因此几乎没有数据的解析预处理。
5.传输的时候flume比logstash多考虑了一些可靠性。
Sqoop2
用于结构化数据源(MySQL)与半结构化(Hbase)非结构化(HDFS)数据源之间相互转换,是为Hadoop和关系型数据库相互转换的工具。
Logstash:有ELK 技术成熟 使用场景广泛 数据预处理 带缓存
Flume: 分布式 事务传输 配置复杂 轻量级线程
Sqoop2:Hadoop和关系型数据库相互转换
参考资料
goood!:聊聊Flume和Logstash的那些事儿
Logstash,flume,sqoop比较
Flume日志采集系统——初体验(Logstash对比版)