检瓜子网络性能优化纪实
一、背景
检瓜子是瓜子二手车为二手车评估师开发的智能车辆评估检测工具App。在两年的开发维护中,有一个问题一直困扰着一线评估师:做一些操作时偶尔会出现“网络异常,请重试”的提示,影响评估师的检测效率,用户体验不友好。为此,技术团队针对这个问题开始做了一系列的动作以提高网络请求的成功率,提升用户体验。
二、网络性能原状
优化一个问题,首先要清楚这个问题目前影响范围,影响程度是怎样的,这样在做优化的时候才能做出前后的对比,以数据展现优化动作的效果,并逐步提高。为此我们对App内所有的网络请求进行了监控。以2017-11-1日数据为例:
** 网络请求成功数量:1087028
** 网络请求失败数量:7291
** 网络失败率:0.67%
除了我们自己APP的监控,我们同时接入了第三方网络监控平台“听云”,十月中旬的检测数据如下图,图中“j******i.guazi.com”是检瓜子的网络请求域名,不难发现我们后端服务的网络性能确实和一些优秀的后端服务“up.qiniu.com”之间有明显差距。
三、网络错误原因分析
我们对2017-11-1所有的网络错误根据异常的原因做了聚合,然后分别对每个原因进行错误占比的统计。主要分为DNS解析异常和Socket超时异常。明细数据如下图:
四、DNS异常解决方案
为了解决DNS异常的问题,我们尝试了 http dns (利用一个 HTTP 的查询目标域名IP的 服务替代默认的 dns解析过程)。我们进行了三天的灰度对比,样本比例为4:6(40%未采用http dns,60% 采用了 http dns)。收集了灰度数据如下图:
分析图中数据可得出几个结论:
** 采用了 Http dns 之后我们的网络错误率降低了 20 % 以上。
** dns 错误占所有错误的比例大幅降低。
** dns 错误占比降低幅度大于网络错误占比降低幅度:一部分dns错误转移为了Socket超时错误。
五、Socket超时解决方案
Http 通信在连接建立了以后,开始进入 Socket 通信阶段,这个阶段包含三个主要时间段:
** 客户端通过网络发送request数据报文到server
** server处理request并生成response (服务端接口性能、延时)
** 服务端通过网络将response发送回客户端
1、网络原因
为了及时发现和解决网络延时导致的 socket timeout 我们接入了第三方听云的 ping 检测服务。它利用分布在全国的不同城市不同运营商(移动、联通、电信)的终端节点定时 ping 目标域名或者IP,查看ping的丢包率以及延时信息。这些节点的类型为 last mile 节点,和我们的目标用户节点类型一致。 如果某些节点有问题能够及时报警,以便推动运维人员帮助我们解决网络问题。
2、服务器接口响应时间
导致socket timeout 的另一个主要原因是因为服务端的接口响应时间过长,偶尔会出现接口延时超过 20S 的严重问题。为了能够及时的推送服务端优化接口性能,我们也对每个接口的延时进行了监控。每周发出一个接口响应时间最长 top 10 的榜单。以便服务端有针对性的解决某个接口延时的问题。经过几周的共同努力我们的接口平均响应时间从523ms降低到了357ms。
下图是一个接口优化后接口延时的前后对比,延时曲线有了明显的变化。
此方法在与服务端、运维人员讨论后,我们在公司范围内对所有业务线的所有接口进行了统一的监控,更好的帮助研发人员发现问题并及时解决。