04-flink和sparkStreaming比较

一、流(stream)和微批(micro-batching)


微批模式

思想:只要批次足够小,则实时性更好,需要攒批数据然后进行处理。

流模式

思想:所有的数据都是流。

二、数据模型不同

  • spark:采用RDD模型,spark streaming的DStream实际上也就是一组组小微批数据RDD的集合。
  • flink:数据流,以及事件序列。

三、运行时架构不同

  • spark:spark是批计算,将DAG划分为不同的stage,一个完成后才可以计算下一个。
  • flink:是标准的流执行模式,一个事件在一个节点处理完成后可以直接发往下一个节点进行处理。

在分布式spark中,假设某个节点因为数据倾斜或者其他问题而导致某个stage处理时间过长,而其他的节点也就需要等待该节点处理完成才能够进行合并计算。
在分布式flink中,所有节点的某数据,处理完成后,保存state,就可发送到下游,后续来的数据可以根据state去做合并计算。则不需要等待。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 1. Flink简介 Apache Flink是一个面向分布式数据流处理和批量数据处理的开源计算平台,它能够基于同...
    活长擅运动阅读 1,288评论 0 0
  • 表情是什么,我认为表情就是表现出来的情绪。表情可以传达很多信息。高兴了当然就笑了,难过就哭了。两者是相互影响密不可...
    Persistenc_6aea阅读 128,546评论 2 7
  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 11,708评论 0 4

友情链接更多精彩内容