背景
当平台业务发展到了一定规模,业务增加,数据量增加,但是还是还没有大数据治理技术做为支撑,却需要在管理系统做数据导出的功能需求,为运营提供和做出策略支撑。这个时候就存在几个问题。
首先:当导出的数据量比较大,直接从网页上面点击导出,然后再等待下载,这个时候可能会等待的时间过长,会发生等待超时的现象,从而失败。
其次:大量的导出操作,可能会影响到原有的核心业务正常性能。
再次:同步导出需要占用一定量的内存,操作平凡内存必然不够用。
为了解决上面的出现的等一系列问题,于是提出了同步导出和异步导出分场景同时运行的架构设计。
初版
为了快速的满足业务需要,外加时间特别紧,于是快速的弄了一个简单版本出来。
设计
1.设计导出任务表里面包含的字段有:任务状态(从初始化-任务完成),业务模块,时间,简单日志记录,文件名称,下载地址等字段。
2.开始或者添加任务入口(导出功能按钮),异步导出下载文件的列表界面(只针对异步,同步则是直接导出按钮即可等待下载)。
3.任务执行服务则是通过mq的消息队列,哪个对等的服务消费到此消息,则执行该任务
4.提供数据查询接口,提供数据量统计总数查询接口
5.文件存储:目前选择的第三方文件系统 例如:七牛云,阿里云,腾讯云的文件存储系统
流程
(同步)点击导出按钮------调用接口-----查询导出数据的总数---小于1万---直接查询数据生成文件---上传文件到第三方获取下载url---返回下载组装数据给前端网页
(异步一阶段)点击导出按钮-----调用接口----查询导出数据的总数----大于1万---保存下载任务到表中---同时发送任务数据到mq--返回操作成功消息给前端,请等待任务完成下载等消息
(异步二阶段)对等服务节点发我监听mq的消息---获取到消息的节点执行任务---查询数据并生成文件---上传文件到第三方并获取url---保存下载url等信息到任务表并更新任务状态为完成----前端网页直接点击按钮下载
.
.
.
此处省略并优化的N个版本
终版
由于前面的版本有非常多的问题在里面例如比较典型的问题有:
1.如果任务执行时间过长,mq获取不到回执的消息,则会将消息在次发送给消费者,导致任务在次执行
2.mq和数据库的数据一致性问题,要保证数据一致性,需要加入更多的设计在里面,成本颇高
3.当mq重启的时候,消费者居然不消费了,需要重启消费者才会继续消费
设计
1.去掉mq,不将mq作为消费者的监听。而是将任务表的id取模,进行分片,不同的任务取模后,被分配到不同的节点去执行任务
2.利用现有的注册中心,获取本服务节点的实例的instanceId 通过排序并映射编号(0到N)和节点总数
3.服务通过查询数据库表的任务数据,根据任务表的id取模,获得与自己相匹配的编号的任务。
4.服务通过线程池的方式,去执行获得的任务
流程
中间的实现过程非常复杂,简单的描述和图画也并不能完全说清楚。重要的是说明设计思路,特别是中间件的是否需要使用并不滥用。