Streaming和kafka的关系

首先，明白spark streaming的作用：可扩展，高吞吐量，容错,exactly once的批数据处理软件，和Elasticsearch不同，Elasticsearch是分布式搜索引擎，支持全文索引，值得一提的是ELK技术栈中的K并不是kafka,而是Kibana,是web界面（和portainer性质一样）。

所以之前链接kafka的作用是为kafka做ETL工作，之后将数据返回kafka。做为消息中间件，kafka的作用是于高并发环境下，由于来不及同步处理，请求往往会发生堵塞，比如说，大量的insert，update之类的请求同时到达Mysql，直接导致无数的行锁表锁，甚至最后请求会堆积过多，从而触发too many connections错误。通过使用消息队列，我们可以异步处理请求，从而缓解系统的压力。

以下是kafka的作用------------------------------------------------------------------------------------------------------------------------------------------------------

kafka是一个发布订阅消息系统，由topic区分消息种类，每个topic中可以有多个partition，每个kafka集群有一个多个broker服务器组成，producer可以发布消息到kafka中，consumer可以消费kafka中的数据。kafka就是生产者和消费者中间的一个暂存区，可以保存一段时间的数据保证使用。

优点：

通过sequence的磁盘数据结构提供消息的持久化，这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。

高吞吐量：即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。

支持通过Kafka服务器和消费机集群来分区消息。

支持Hadoop并行数据加载。

kafka的集群管理，负载均衡由zk实现。

kafka的应用场景：

日志收集：一个公司的各种应用都可以作为生产者将日志吐到kafka，再由hbase，solr，es等来消费kafka的日志作统计，查错。

消息系统：解耦和生产者和消费者、缓存消息等。

用户活动跟踪：Kafka经常被用来记录web用户或者app用户的各种活动，如浏览网页、搜索、点击等活动，这些活动信息被各个服务器发布到kafka的topic中，然后订阅者通过订阅这些topic来做实时的监控分析，或者装载到hadoop、数据仓库中做离线分析和挖掘。

运营指标：Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据，生产各种操作的集中反馈，比如报警和报告。

Streaming和kafka的关系

推荐阅读更多精彩内容