基于akka-actor的流计算引擎

0 背景

术语表

术语 备注
akka 一套运行于JVM上实现了Actor模型的Scala类库,用于构建高并发、基于消息驱动的分布式高性能应用
YStream 基于akka-cluster的流计算引擎
Gossip 基于TCP/IP的用于akka-cluster成员节点间相互通信的网络协议
cluster-seed-nodes Gossip的种子节点,用于管理集群节点的状态。akka-cluster的任意节点启动后,都会试图找到一个种子节点并通过其加入到集群中
Job-manager 简称Jm, 作为种子节点负责管理集群内所有节点的状态,同时对外提供基于jmx以及http的关于引擎核心指标数据监控接口。一般配置2个以满足高可用的需要
Task-manager 简称Tm,流计算引擎的核心,实现了Clock、Source、Filter、Map、Window、Sharding、Routing等常用Transformation。根据应用的数据规模可部署多个节点。同时,负责把常用监控指标数据更新到Redis

1 架构图

YStream-architect.png

按照功能角色的不同,YStream主要分两个角色: Job-manager以及Task-manager。 这两个角色都是在同一个akka-cluster中的,而每个角色又有多个节点组成。

1.1 Job-manager

Job-manager简称Jm,

1.2 Task-manager

2 核心概念

2.1 时间

2.1.1 事件时间(EventTime)

2.1.2 处理时间(ProcessingTime)

2.1.3 混合时间(EventTimeWithMaxDelay)

基于事件时间的时间生成器, 支持窗口关闭加速(当长时间没事件的时候,允许强制生成时间, 支持“最少xx秒内产生一个时间戳”的语义)

2.2 窗口

2.2.1 滚动窗口

2.2.2 滑动窗口

3. 核心转换Actor(Core Transformation Actors)

3.1 SourceActor

3.2 ClockActor

3.3 FilterActor

3.4 GroupByActor

3.5 MapActor

3.6 WindowActor

3.7 SinkActor

3.8 Demo

4. 集群模式支持

4.1 架构设计

4.2 ShardingActor

4.3 ClusterDemo

5. 监控指标(Monitor Metrics)

5.1 Jobmanager & Taskmanager

5.2 单actor指标监控

5.3 端到端延迟监控

6. 问题以及改进方向

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • 要搭建起整个互联网,首先得要实现计算机之间的互相联系,而这离不开集线器、交换机、路由器的帮助,接下来我就介绍介绍这...
    lusoer阅读 3,008评论 0 0
  • 今天晚上女儿写的作业结束的早,检查背诵,竟然好想睡觉,最后忍不住小眯了一会,今晚搂着俩宝早早睡觉喽!
    其乐妈咪阅读 891评论 0 0
  • 我现在才明白一点,真正地为人处事并不是那些自作聪明的圆滑世故,而是温文尔雅的和气,恰到好处的礼貌以及融于现实的小...
    ShinneyNI阅读 1,742评论 0 1

友情链接更多精彩内容