IM二分法智能心跳策略

IM心跳策略

心跳的字段定义

  • minHeart 最小心跳,本地默认120秒,服务器定120秒
  • maxHeart 最大心跳,本地默认580秒,服务器定580秒
  • startHeart 起步心跳,本地默认240秒,服务器定240秒

心跳信息字段

  • networkTag 当前网络类型,如CMCC-4G
  • stabled 稳定心跳的标志位,true表示稳定心跳
  • stabledSuccessCount 稳定心跳连续成功次数,这里是在心跳稳定一段时间后,再尝试上调的时候用,例如stabledSuccessCount > 50的时候,稳定心跳尝试上调
  • failedCount 心跳连续失败次数,当failedCount >= 3的时候,才会认为当前心跳是不可用的,会尝试下调,如果心跳一直失败,那么failedCount是不断累计递增
  • successCount 心跳连续成功次数,心跳成功后就递增1,同时successCount > 2的时候会把failedCount清零
  • curMinHeart 当前心跳探测区间极小值
  • curMaxHeart 当前心跳探测区间极大值
  • curHeart 当前心跳
  • successHeartList 成功心跳列表,每次心跳成功后,会把当前的成功心跳记录进来

重置心跳

  • 当TCP连接有除了心跳包以外的消息包在进行传输(read)时候,就认为该TCP连接在这个时刻仍然有效,在程序中read到消息包数据后会对数据进行短时间处理(ms级别),然后再write数据,只有收到同步通知,或者单推的时候本地发现消息已经同步,那此时就不会write,不过这种情况发生的概率比较小,所以心跳是在write数据出去的时候进行重置,这里不在read数据的时候重置心跳是为了避免在弱网环境下,数据包要在网络中传输几分钟,导致服务器连接超时,然后把TCP连接误断的这种情况
  • 如果心跳包在write的时候进行重置,当遇到此TCP已经是无效连接,但是服务器和客户端都没有感知到这中情况,那么客户端对于write出去的消息会有一个超时检测(20s,但是消息ack没有超时检测),write数据出去后收不到响应的回馈,20s超时到期,此时会通过心跳来验证TCP连接的有效性,心跳超时就进行断线重连,所以这里会有60秒以上的消息延迟
  • TCP无效连接,如果是客户端的消息ack数据发送出去但是服务端没有收到,那么将遇到两种情况,第一是服务器连接超时端开,第二是客户端下一个心跳检测发现TCP连接是无效的,然后断线重连,这里会有最多一个心跳周期的延迟

心跳策略图

这里写图片描述

触发心跳上调

  • 探测期间的心跳发送成功并及时收到服务器的响应,这时候会执行心跳上调
  • 稳定一定的时间后尝试上调(有待优化)

心跳上调策略

  • 记录成功心跳的信息
  1. successHeartList.add(curHeart);successCount++;
  2. if (successCount >= 2) failedCount = 0;心跳连续成功两次,才认为当前心跳在该网络环境下运行稳定
  3. 把当前的心跳信息更新到文件中。
  4. if (stabled == true) stabledSuccessCount++;
  • 如果当前心跳不是稳定心跳,那么执行以下操作:
  1. 从成功心跳列表中筛选比当前心跳大一级的心跳周期作为当前心跳:curHeart = successHeart;
  2. 如果1没有筛选出结果,则用二分法进行上调:
    (1)curMinHeart = curHeart;
    (2)if (curMaxHeart < curMinHeart) curMaxHeart = curMinHeart;
    (3)curHeart = (curMinHeart + curMaxHeart) / 2;
  • 判断curHeart > maxHeart,如果是则curHeart = maxHeart;stabled = true;这是用来异常过滤
  • 检测心跳探测区间是否达到机值条件:
  1. if (curMaxHeart - curMinHeart <= 10 && stabled == false) curHeart = curMinHeart;
  2. 如果已经达到极值条件(curMaxHeart - curMinHeart <= 10),那么stabled = true;
  • 使用curHeart进行下一个心跳的发送

触发心跳下调

  • 心跳下调无非是TCP连接断线导致心跳下调,但并不是所有的TCP断线都要下调心跳,当前遇到会导致TCP断线的情况有以下几种:
  1. 心跳超时主动断开TCP连接(socket closed),此时应该下调心跳
  2. IM SDK初始化会主动断开TCP并重新连接(socket closed),不应该下调心跳
  3. 本地网络断开造成 TCP连接被动断开(Software caused connection abort,socket closed),这里分为两种情况,第一个是网络切换,那么这时候是网络断开,然后再重新连上的一个过程,应用能明显的感知到这个过程(网络切换广播),TCP连接在网络切换的时候会被动断开,这时候在下调心跳之前要先检测下本地网络是否可用,如果不可用则不进行心跳下调,其实因为本地网络断开导致的TCP断线是不应该下调心跳的,这里多了个检测就是为了在一定程度上过滤掉一部分因为本地网络断开导致的心跳误下调;还有一种是modem其实已经断网了,此时modem可能在进行重连,但是并没有网络切换广播,此时应用层是无感知的,但是TCP连接可以立马感知到,并被动断开,这时候检测本地网络也是可用的(不准),所以这时候会导致心跳误下调,Android sdk接口判断本地网络是否可用其实是不准确的,如果接口返回不可用,那么本地网络一定是不可用的,如果接口返回可用,那网络还不一定真的可用,因为接口检测的只是设备本地网络而已,如果连接上一个假wifi(需要验证密码),那么设备到wifi路由器这段网络是通的,但是wifi路由器到外网是不通的,这时候设备是感知不到的,通过ping才能准确的知道网络是否真的可用,当手机卡欠费的时候,本地接口也是返回网络可用,道理类似
  4. 服务器close造成TCP连接被动断开(read返回-1),此时会下调心跳
  5. 其他网络原因造成的TCP连接被动断开(connection reset等),此时会下调心跳
  6. TLV数据解析错误主动断开TCP连接,不应该下调心跳
  7. 除了以上6中原因会造成TCP断开,如果还有其他原因在成TCP断开,需要检测三个条件才满足心跳下调的条件:第一是当前心跳是否已经启动,第二是当前设备本地网络是否可用,第三是TCP断开前,已经持续连接超过一个最小心跳周期的时间,满足以上三个条件才进行下调心跳,否则不下调

心跳下调策略

  • 记录心跳失败信息:
  1. 从successHeartList移除当前心跳锁对应的心跳周期;stabledSuccessCount;successCount;failedCount++;
  2. 把当前的心跳信息更新到文件中。
  • if (stabled == true && failedCount >= 3)那么执行以下操作:
  1. stabled = false;
  2. 从successHeartList筛选比当前心跳小一级的心跳heart
  3. if ((minHeart + curHeart) / 2 < heart) selectedHeart = heart;curHeart = selectedHeart;
  4. 如果没有筛选到适合条件的selectedHeart,那么就进行二分法下调:
    (1)currentMaxHeart = currentHeart;
    (2)currentMinHeart = minHeart;
    (3)currentHeart = (currentMinHeart + currentMaxHeart) / 2;
  • if (stabled == false && failedCount >= 3)那么执行以下操作:
  1. 从successHeartList筛选比当前心跳小一级的心跳heart;
  2. if ((minHeart + curHeart) / 2 < heart) selectedHeart = heart;curHeart = selectedHeart;
  3. 如果没有筛选到适合条件的selectedHeart,那么就进行二分法下调:
    (1)currentMaxHeart = currentHeart;
    (2)if (currentMaxHeart < curentMinHeart) currentMaxHeart = currentMinHeart;
    (3)currentHeart = (currentMinHeart + currentMaxHeart) / 2;
  • 检测心跳探测区间是否达到极值条件:
  1. if (curMaxHeart - curMinHeart <= 10 && stabled == false) currentMinHeart = minHeart;
  2. 之所以加入这个判断是为了当心跳一直失败下调,但是curMinHeart和curMaxHeart又很接近导致二分法无法下调的时候,就直接把curHeart设置成minHeart

稳定心跳

  • 有效的稳定心跳是NAT临界值
  • 探测心跳达到最大心跳值的时候认为是稳定心跳
  • 探测心跳满足二分法的极值条件(curMaxHeart - curMinHeart < 10)的时候认为是稳定心跳
  • 探测心跳达到最小心跳值的时候认为是稳定心跳
  • 当探测到稳定心跳之后,正式使用的心跳值会在探测到的稳定心跳的基础上扣除20秒,但是扣除后的心跳值一定要在最大值和最小值之间,避开临界值

Android机子上存在的问题

  • 对于系统APP发起的alarm,在android原生系统不会存在alarm被对齐的问题,因为android系统对于系统app发起的alarm会设置alarm的flag为FLAG_ALLOW_WHILE_IDLE_UNRESTRICTED,在Android6.0以上系统AlarmManagerService会在doze模式下忽略有该flag的alrm,因此不会被延迟唤醒,至于AlarmClokc,flag是FLAG_WAKE_FROM_IDLE,doze模式下也不会对该flag的alarm做延迟唤醒
  • 在Android6.0系统以上,休眠的时候alarm是会被延迟执行的,可通过加入系统白名单的方式来避免,Google的GCM就是默认系统白名单,但是在手机上,系统白名单尝试过,并没有用;手表是原生的Android系统,可以尝试加入白名单更加可靠
  • alarm的对齐唤醒:国内的手机厂商例如华为,魅族,小米都是自定制的android系统,对于AlarmManager都有对齐唤醒策略,因此会导致心跳alarm的时间不准确,例如设置了270秒alarm一次,但是在这些手机上可能要推迟到300秒才能唤醒,那么问题来了,如果NAT超时时间是2分钟,而这些手机的alarm最小间隔是5分钟,那就坑了,永远无法探测到最佳心跳,你设置120秒的alarm,手机系统也给你延迟到5分钟才执行alarm,不过这种情况只有在手机休眠的时候才会对齐唤醒,在手机不休眠的时候,我侧过,alarm计时还是准确的
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容