0x01 拓荒时期
最早期设计调度器的原因基于当前环境有个需求,需要使用调度器通过安全平台API将任务全部拉取下来,并根据平台的扫描参数进行任务的下发、执行、状态的判断、结果拉取。
当时没有特别多的想法,只想一路往前跑,不管结果如何,先上,毕竟安全团队属于刚起步阶段,在创业公司,如果没有创造足够的价值,随时都有可能被干掉,这种危机感逼迫着自己前进。
由于时间有限,我们需要在极短的时间将工具链条输出,让运维人员和安全人员上手,并且大幅度的提高整个自动化的能力,所以,在设计上比较粗糙,并没有做过多的深入。当时想的是,能够满足一个小阶段的需求,就ok,毕竟内部安全产品是需要不断的迭代和打磨,才能真正的走向业务。
千万别小看它,在前面任职的公司也曾用它,现在的公司也在用它虽然版本更新了,fix了部分的bug。在线上跑的时候,遇到各种问题,首先最大的问题就是用户的输入无法掌控,明明特别好的东西,到用户手里可能就变了。针对这些坑让人实在头大,且之前的架构由于着急上线,没有做完整的梳理,导致问题越发严重,初步列了下这个版本出现的问题:
- 守护进程down掉,没有任何的提醒。
- 用户输入异常,调度器在读取数据的时候没有做容错,导致调度器死亡。
- 日志记录不清晰,只记录了关键代码以及关键位置,但是针对一些高频的动作没有做记录。
- 封包依赖太多,导致安装过程困难,运维成本提升。
- 逻辑耦合太多,没有做线点拆分。
- 数据没有统一化管理,多点、多文件,定位故障困难。
0x02 革命时期
针对这些问题,做了一些梳理,跟内部的安全、运维的小伙碰了下,决定将调度器改了,把这些坑先灭了再说。旧的先让业务跑着,不中断。新的在后面尽快开发、测试上线。
我们先把整个架构梳理了一遍,把我现在有的或者准备整合的业务做全面的梳理,看看调度器具体要管的节点有哪些,根据这些节点,设计不同的微服务,并且将服务和schedule进行全面的耦合。
这会正好Bingli在顺丰过得不太happy,毅然决定加入拉勾安全团队。(<code>对于有想法有能力的小伙,老板重来不看学历,只看输出,这里给我们@侯老板点个赞。</code>)我们开始谋划着这个调度器的设计,不断碰撞,不断把思路捋顺,这次没有着急动手,原因是想规避之前的错误。
新的调度器技术选型用的是nodejs来做整个调度器,在刚接触这个语言的时候,我就深深的爱上了它,node这个轻量舒服的语言简直就是为调度器量身定做的,同时,在国内有专业的社区支撑以及安装配置简单,毫无压力,版本差异化没有特别大的问题,就这点,我相信这就是运维的福音,果断的就选择它。
- 开发: node.js v6.3.0
- DB: mysql/redis
0x03 摸索到的问题
新的调度器开发的过程特别顺利,花了短短两天多点的时间,我就把整个调度器都改写一遍。
我们这个阶段解决的问题:
- 调度器需要多纬度的支持,不管新接入的是什么设备,什么工具,都需要以配置化,活体动态加载;
- 针对抓取的数据,做双层检测,确保数据是正确的,同时在重要的功能部位加入埋点,确保数据可控;
- 调度器需要设置失败的监控,错误重试,并且上报异常等动作,确保重要感知;
0x04 线上running
在调度器竣工后,我们直接用在新的环境上,在后续,我们只需要专注扫描节点的开发即可,当然,为了满足短期的需求,web上的功能我们也已经完成,研发可以在上线之前自动开启一个扫描来确认风险是否存在。
0x04 写在最后
每个迭代打磨都是对技术的锤炼和感悟,所有的菜鸟都是从这个阶段过来的,感谢机会,感谢身边的人。