运维一个应用系统不容易

关于项目,有一个定义是:项目是创造独特产品、服务或其他成果的一次性工作任务。

项目并非实现产品经理的需求就完事了。 当项目投产后,在用户使用的过程中,会遇到千姿百态的问题。相当长的一段时间里,开发人员可能会疲于应付处理这样的问题。 运维一个应用系统不容易呀,那么,为什么会投入这么多时间呢?可能包括用户对业务逻辑的不够清楚,包括程序实现的bug,包括逻辑的复杂,包括线上运行过程中突发的事故。 而这些,往往并不在产品经理的需求范畴里, 所以,在系统实现方面,还应考虑应用系统的运维功能,包括:


监控

系统在运行过程中,难免会因为服务器问题或网络问题导致挂了, 所以,存活性监控是必不可少的。

业务监控:比如短信平台出现过被恶意攻击的情况,客户通过代理伪造了很多的手机号和IP最终触发了我们的短信通知。 像这种情况,应该做一个监控,如果某段时间里短信下发量突然暴增,就要告警并给予关注了。

我曾有一篇监控的文章《Promise计算模块验证和监控》。

当然,性能监控是更高阶的要求了,比如系统吞吐量(TPS)、TP99指标;服务器的disk io、cpu、memory、net io监控不在话题内,略过。


运营支持工具

以差旅订单通知系统为例,客户反映,说你系统出现问题了,你开始向客户索要相关信息,然后排查程序,写一大堆的sql,这样一来,个把小时过去了,你终于把客户的问题解决了。

再以审批系统为例,客服找你,说某个订单,客人手机出问题了无法通过短信审批,你帮忙改下订单的审批状态吧。你开始写sql,改审批单状态,改订单状态,然后,向领导申请,找运维人员在生产环境执行sql。然后,告知客服改好了,客服再告知客人。这样一来,估计快也得半小时。

初看起来,处理系统问题,不就是这么回事嘛。  作为一名项目管理者,我喜欢从成本和绩效的角度考虑,这种处理问题的方式,首先浪费了开发人员的时间,而且这种重复性的工作并不能产生多少业绩,所以一些程序员喜欢抱怨自己的工作无聊也不足为怪。其次呢,如果程序员手头又在参与新的项目,这会令他们无法专注于眼下的工作,事儿多容易乱。那么,我们就要想法对这样的工作say goodbye! 运营支持工具就派上用场了,以上面的帮助客服修改订单审批状态为例,开发一个这样的工具,当客户再有这样的需求时,一个文本框一个按钮就搞定了(条件可以的话,把这个工具交给客服操作,我们程序员就解放了)。

从全局的角度看,这样也节省了客服的工作效率。她们会感谢你的。


运营手册

系统在使用过程中会出现各种你想不到的问题,

即使前期的需求做的多么完美(实际情况下,多数的产品设计出来的需求,在投产后,很多的问题是产品事先没有考虑到的)。

技术方面,用户异常输入致使字段类型长度不够、static的误用、内存的泄露、nullpointerexception。。。等等,无法避免。

不断的迭代,回归测试不足是常态,导致新功能满足了原有功能遭殃了。

好脑袋不如烂笔头。我们需要一个系统运营手册,以日历的形式记录日常出现的问题,常见的原因,解决方案,或者需业务上哪些人给予协助。 遇到过的技术问题和技术解决方案。同样,记录备忘性的内容,比如依赖的上下游系统的接口、联系人。

要说明的是,对于团队项目,这些文档要放到svn等版本管理工具里,大家共享共同更新。

温故而知新。运营手册不是整理完了就放那儿不管了,要定期review,对常见的运维内容,提炼出共性,作为新的需求来有针对性的进一步升级系统,如此以来,问题将会逐渐变少,并能hold住。

BTW,如果系统易主,这对于接管的团队来说,是非常宝贵的资源。


异常错误检测和补偿

一个定时跑批服务,可能会因为服务器异常,导致某次该跑但未跑。

一个批处理程序,可能因为某条记录的“非法”数据,导致漏掉了该条记录的处理。

涉及到完整的业务流程处理的,可能会因为事务得不到很好的控制,而导致数据不一致。 同样,对于分布式系统,数据不一致更常见。

以上情况,在系统运行过程中,我们一定会遇到。 我们要对系统的这些异常数据进行检测,检测是手段,检测不是目的,目的是要将数据调整过来,不一致的调成一致,缺失的数据想办法补充或直接废除。


通过以上方面的努力,我想,运维一个应用系统将会变得更容易!同时,我们得以解放出来,去专注于更多的工作。 拙文写的比较糙,还有更多更好的实践方案还需再积累,也期待和大家一起交流。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,732评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,496评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,264评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,807评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,806评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,675评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,029评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,683评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 41,704评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,666评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,773评论 1 332
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,413评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,016评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,978评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,204评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,083评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,503评论 2 343

推荐阅读更多精彩内容