Kafka是大数据生态中非常重要的一个基础组件,其作为消息队列(MQ)负责数据的存储与分发。与其他消息队列相比,Kafka专为分布式高吞吐量的系统设计(内置分区,复制,容错能力)。
一句话描述Kafka:一个分布式发布-订阅消息系统和一个强大的队列。
特点:
Kafka适合离线和在线消息消费;
消息保留在硬盘上,并在集群内复制以防止丢失;
构建在ZooKeeper同步服务这上;
与Apache Storm和Spark非常好的集成,用于实时流式数据分析;
好处:
可靠性--Kafka是分布式,分区,复制和容错的;
可扩展性--Kafka消息传递系统轻松缩放,无需停机;
耐用性--Kafka使用『分布式提交日志』,消息会心可能快的保留在磁盘上(持久化存储);
性能--Kafka对于发布和订阅消息都具有高吞吐量。即使存储了TB级消息,也能保持稳定的性能;