Streaming和kafka的关系

    首先,明白spark streaming的作用:可扩展,高吞吐量,容错,exactly once的批数据处理软件,和Elasticsearch不同,Elasticsearch是分布式搜索引擎,支持全文索引,值得一提的是ELK技术栈中的K并不是kafka,而是Kibana,是web界面(和portainer性质一样)。

    所以之前链接kafka的作用是为kafka做ETL工作,之后将数据返回kafka。做为消息中间件,kafka的作用是于高并发环境下,由于来不及同步处理,请求往往会发生堵塞,比如说,大量的insert,update之类的请求同时到达Mysql,直接导致无数的行锁表锁,甚至最后请求会堆积过多,从而触发too many connections错误。通过使用消息队列,我们可以异步处理请求,从而缓解系统的压力。

    以下是kafka的作用------------------------------------------------------------------------------------------------------------------------------------------------------

    kafka是一个发布订阅消息系统,由topic区分消息种类,每个topic中可以有多个partition,每个kafka集群有一个多个broker服务器组成,producer可以发布消息到kafka中,consumer可以消费kafka中的数据。kafka就是生产者和消费者中间的一个暂存区,可以保存一段时间的数据保证使用。

    优点:

        通过sequence的磁盘数据结构提供消息的持久化,这种结构对于即使数以TB的消息存储也能够保持长时间的稳定性能。

        高吞吐量 :即使是非常普通的硬件Kafka也可以支持每秒数百万的消息。

        支持通过Kafka服务器和消费机集群来分区消息。

        支持Hadoop并行数据加载。

         kafka的集群管理,负载均衡由zk实现。

    kafka的应用场景:

        日志收集:一个公司的各种应用都可以作为生产者将日志吐到kafka,再由hbase,solr,es等来消费kafka的日志作统计,查错。

        消息系统:解耦和生产者和消费者、缓存消息等。

        用户活动跟踪:Kafka经常被用来记录web用户或者app用户的各种活动,如浏览网页、搜索、点击等活动,这些活动信息被各个服务器发布到kafka的topic中,然后订阅者通过订阅这些topic来做实时的监控分析,或者装载到hadoop、数据仓库中做离线分析和挖掘。

        运营指标:Kafka也经常用来记录运营监控数据。包括收集各种分布式应用的数据,生产各种操作的集中反馈,比如报警和报告。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 文/玟瑾 中国社会结构的橄榄型明显增大,连端更加突出,是不是这样的现象? 那么“高负债中产”是不是消费升级的新力量...
    我是玟瑾阅读 1,677评论 0 0
  • 什么都不想想,只是想逃离和忘记。
    chela阅读 936评论 0 0
  • 双十一是把一个人的孤单变成一群人的狂欢的节日。所谓节日,本身就是人们摆脱单调重复日常的区隔设置而已。而我们从对春节...
    笨NANA阅读 1,254评论 0 0
  • 为期21的天的鱼哥写作营即将闭营,昨天布置了最后一篇作业,以“用简心”为主题写一篇文章。 琢磨了一整天,我终于明白...
    我是简悦阅读 1,794评论 2 4