登录注册写文章

04-flink VS spark VS strom

04-flink VS spark VS strom

04-flink VS spark VS strom

流派对比

	Record ACK	Micro-batching	Transactional updates	Distribted snapshots
代表	Apache Strom	Apache Spark	Goole Cloud Dataflow	Apache Flink
语义保证	At least once	Exactly once	Exactly once	Exactly once
延迟	低	高	较低(事务延迟)	低
吞吐	低	高	较高(取决于事务存储吞吐)	高
计算模型	流	微批	流	流
容错开销	高	低	较低(取决于事务存储吞吐)	低
流控	较差	较差	好	好
业务和容错分离	部分	紧耦合	分离	分离
原理	Source保留其产生的所有记录备份，当源头一条记录的所有派生记录都被处理完成，Source节点就可以删除其备份	连续的数据流不要切分到record级别，而是收敛切分为一批一批微批的、原子的数据进行类型Batch的计算。每个batch的数据可能会成功或者失败，我们就对当前失败的小批数据进行处理即可	原子地记录数据的处理以及状态的更新(类似数据的WAL日志)。一旦系统出现Fail，可从记录的日志中恢复我们需要的中间计算状态和需要处理数据	确定当前流式计算的状态(包括正在处理的数据，以及operator状态)，生成该状态的一致快照，并持久存储
说明	一条条处理(下游处理完一条数据，再向上游要一条数据处理)	相当于一批一批处理(微批)

Flink API VS Spark API

API	Spark	Flink
底层API	RDD	Process Function
核心API	DataFrame/DataSet/Structured Streaming	DataStream/DataSet
SQL	SparkSQL	Table API & SQL
机器学习	MLlib	FlinkML
图计算	GraphX	Gelly
其它		CEP

Flink VS Strom 吞吐

flinkVSstrom吞吐.png

Flink功能对比

flink功能对比.png

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Flink vs Spark —— 为Spark开发者介绍Apache Flink
Madhukar 原文世界需要另外一个大数据处理系统吗？这是当我第一次听说Apache Flink的时候产生的问...
Anor9阅读 6,308评论 0赞 16
Apache Flink实战(一) - 初识Flink
了解Flink是什么，Flink应用程序运行的多样化，对比业界常用的流处理框架，Flink的发展趋势，Flink生...
JavaEdge阅读 5,165评论 1赞 18

Apache Flink vs Apache Spark[转载]
Apache Flink vs Apache Spark[转载] https://www.iteblog.com/...
raincoffee阅读 491评论 0赞 2
Hadoop vs Storm vs Samza vs Spark vs Flink
简介大数据是收集、整理、处理大容量数据集，并从中获得见解所需的非传统战略和技术的总称。虽然处理数据所需的计算能力...
x_no_one阅读 1,955评论 0赞 3
无题
目之所及，只在当下然心之所往，贯穿始终
不会数数的羊阅读 232评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文