登录注册写文章

Flink了解、生态

Flink了解、生态

Flink了解、生态

Created: Jul 17, 2019 7:32 PM
Tags: flink基础

Apache Flink

是一个分布式大数据处理引擎，对有限数据流和无限数据流进行有状态的计算。是统一的大数据分析和流计算、批计算及机器学习引擎。

数据流

有限数据流：有限的不会改变的数据集合。批处理、离线运算。
无限数据流：数据流源源不断的。流式计算、流计算。如点击流、日志数据、物理传感器采集的数据等。

计算

流式计算、流计算
批处理/离线计算：在预先定义的时间内运行计算，完成时释放资源。

Flink特性

支持批处理和数据流程序处理
优雅的支持java和scala api
同时支持高吞吐和低延迟
支持时间处理和无需处理通过SataStream API，基于DataFlow数据流模型
在不同的时间语义（事件时间、摄取时间、处理时间）下支持灵活的窗口（时间，滑动，翻滚，会话，自定义触发器）
仅处理一次的容错担保
自动反压机制（可想象捏住水管理解）
图处理（批）、机器学习（批）、复杂时间处理（流）
在dataSet（批处理）API中内置支持迭代程序（BSP）
高效的自定义内存管理，简装的切换能力在in-memory和out-of-core中
兼容hadoop的mapreduce和storm
集成YARN，HDFS，Hbase和其他hadoop生态系统组件

Flink生态之核心组件栈

内部生态

- Untitled-97bea834-cd21-40e3-8c27-e5fd9dc8f1f6.png

外部生态

通过connector跟外部生态对接。connector官网上介绍的不一定全面，可以直接去github上查（直接搜flink）。

- Untitled-7795f27c-1d64-4d74-acea-5a19d8b2ea31.png

注：可以github搜FlinkX，基于flink的数据同步工具，袋鼠云开源的。

最后编辑于：2019.08.01 14:21:39

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

赞赏

手机看全文