这是一个未曾体会过的春节,突如其来的假期因为共赴时艰而显得格外漫长。
我们每天被疫情的数字触动,又被许许多多的画面感动:
我们不会忘记,在去往武汉的动车里,一位老人累得闭着双眼,却帮国人睁开了面对疫情的警觉之眼。
我们不会忘记,武汉金银潭医院那个虽行走不便却日夜兼程、一边与病毒较量一边与自己的渐冻症赛跑的背影。
我们不会忘记,从推门进来放下一万多元到转身出去一共只用了17秒的环卫工人,他净化了那座沿海小城的街道,更净化了我们的心灵。
……
我们也终于明白,自己向往的根本不是“闲”,而是“忙里偷闲”的“偷”;自己向往的根本不是“宅”,而是“宅在家里却可以随时外出”的自由。
更重要的是,我们终于发现,可以上班是多么幸福和幸运。原来,不是工作需要我,而是我需要工作!
作为返京后还未返岗的运营商大数据的从业者,为了排解无法出门上班的苦闷,本人学习了最近很热的传染病模型,研究了模型中每个变量和现实场景各种因素的映射,并分析梳理了运营商大数据如何影响和改变这些因素。最终,有了这篇文章——讨论和分享了运营商大数据如何助力新冠肺炎的防疫工作,如何助力我们共克时艰。
不当之处,还请斧正。
首先,学习传染病模型。
传染病模型是指研究传染病的传播速度、空间范围、传播途径、动力学机理等问题的数学模型,可用于传染病的预防和控制,分为 SI、SIR、SIRS、SEIR 等模型。
由于新冠病毒具有潜伏期且在潜伏期具备传染性,因此可采用带有β2的SEIR模型描述传播过程(β2表示潜伏期的传染性)。
顾名思义,SEIR模型包括易感者S (Susceptible)、暴露者 E(Exposed)、感染者I(Infectious)、康复者R(Recovered)4类角色。该模型的相关变量如下:
S:可能被感染的健康者的数量;
E:暂无症状的潜伏者的数量;
I:出现症状的患者的数量;
R:因病愈而具有免疫力的康复者的数量,如免疫期有限,康复者可以重新变为易感者;
r1:感染者接触易感者的人数;
r2:潜伏者接触易感者的人数;
β1:感染者的传染概率;
β2:潜伏者的传染概率;
a:潜伏者转化为感染者概率;
γ:康复概率。
*注:可以通过知乎《在家宅着也能抵抗肺炎!玩一玩SEIR传染病模型》等文章详细了解相关模型,这里不做赘述。
运营商是天然的大数据集中营,拥有百万级的基站资源、亿级出账用户数、PB级日均数据生成及采集量。运营商大数据有着社会性、移动性和定位功能特点,可以获取用户身份信息(WHO)、时间信息(WHEN)、位置信息(WHERE)、终端信息(WHICH)、行为信息(WHAT)和感知体验(EXPERIENCE),形成每个用户的动态标签库,从行为轨迹、业务偏好、时空分布、社交属性等维度360度刻画人们的日常。接下来,介绍运营商大数据之“大”。
另一方面,基于运营商数据的深度包解析技术(DPI技术),可以解析用户的互联网业务行为,包括访问某个APP的具体行为,浏览、分享的微博、新闻,搜索的关键词等等,最终基于机器学习、AI技术建模,完成用户行为分析和意图预测。
进入正题,分享运营商大数据如何助力防疫。
基于SEIR 模型,我们可以将防疫工作转化为控制传染源和传播途径两个层面。
1.传染源层面:
与SARS不同,新冠病毒在潜伏期就具备传染性,这导致病毒更加容易传播,也会使暴发期大幅度提前,而最长可达24天的潜伏期,给防疫工作带来了巨大挑战。
由上文介绍可知,通过运营商大数据,我们可以获取通信基站上报的用户完整的位置信息,从国家、省份、地市,到场景、街道和楼宇。基于这样的数据能力,可以实现以下功能:
① 统计跨省份、地市的人口流动数据,获取流入/流出人口;
② 筛选出已出现疫情的小区、楼宇内的其他住户;
③ 对于感染者(I,Infectious),基于时间+位置二维数据回溯他的位置轨迹,基于机器学习算法,可以尝试去寻找和他乘坐过同一个交通工具或者长时间近距离接触过的人;
④ 按照“③”的思路,也可以尝试找到与“①”“②”两类人乘坐过同一个交通工具的人。
以上人群中存在潜伏者(E)的概率较高,尽可能地找到他们,可以助力防疫部门对潜在传染源的重点关注、管理和排查。
例如,下图某日基于运营商大数据获取的从疫情严重地区返京的人群位置分布热力图,人口密集处可以列为防疫重点关注区域。另一方面,基于运营商大数据系统长期沉淀的人口常驻地、漫游地数据,可对大规模的人口迁徙进行预判,为人群迁徙潮到来时的防疫阻击战的提前布局提供参考依据,防止疫情通过公共交通扩散以及人口流入城市疫情暴发。
顺便回顾下最近广为流传的以下4类群体:其中,医生不知道谁是B,连B自己也不知道自己是B。同时,瑟瑟发抖的D在“①”马上饿死和“②”可能感染的两个选项中纠结后,选择出门(买菜、上班、乘公交……),就有一定的概率碰到B,这时候,D成功地发展成2B(即新的B)。接下来有更多的2B人群出现在买菜、上班、乘公交中……如此循环……
基于上面的介绍,运营商大数据可以辅助官方找到A类人(即上文提到的功能“①”),并给找到B和2B们提供一定的线索和帮助(即上文提到的功能“④”)。
2.传播层面:
由SEIR 模型可知,r1(感染者接触易感者的人数)、r2(潜伏者接触易感者的人数)两个参数的增长会促使病毒快速扩散。假设小明是潜伏者(E)或感染者(I):若他去电影院看电影,则r(指r1或r2,下同)>100;若他在家打麻将,则r=3;若他在家自我隔离,则r=0。这就是专家鼓励我们在家独处,不出门、不聚会、不去密集场所的原因。
因此,识别那些r值高(接触易感者的人数多)的群体对于传播层面的管控具有重要意义。基于运营商大数据获取用户位置信息、活动规律、通话记录、上网业务行为特征,可以为识别r值高的群体提供参考。
例如可以基于以下思路识别特定职业群:这些职业群体一旦感染,由于其自带很高的r值,病毒会迅速传播。因此他们的健康状况值得被重点关注。
另一方面,给某个城市的地图画出一个个田字格(即栅格化),运用网格化、场景化技术手段,分析栅格内的人口密度、职业群体分布、自我隔离水平、出行意愿等影响因素,可以有效评估城市中每个网格的危险指数,从而为精准防疫、科学防疫提供一定的参考依据:
以上就是基于SEIR 模型,从控制传染源和传播途径两个方面介绍运营商大数据在防疫阻击战中所发挥的作用。
进一步,结合运营商大数据以及其他行业数据源,利用网格化的大数据分析,可以助力政府研判疫情、下好先手棋。在确保疫情可控的情况下,针对目前的各类工厂、公司的复工复产,因地制宜、分类指导,有序恢复生产。
本文并非纸上谈兵。在抗疫阻击战中,运营商积极探索大数据在疫情联防联控、精准施策过程中的应用,初见成效。通过向多个省市以及国家部委提供数据分析报告、与政府共建疫情指挥大数据平台、向国家卫健委、交通部等部门提供全国人口流动洞察服务等,为疫情态势研判和决策提供依据,深刻践行央企的社会责任。
以上是一个运营商大数据的非资深从业者的思考与分享。无论你阅读之后是感慨运营商大数据之高深精妙,还是叹息它不过如此,仍要知道,本文内容只是运营商数据领域知识体系的冰山一角、沧海一粟罢了。
如果你对5G时代的到来充满了憧憬和期待,如果你对浩如烟海的电信大数据知识怀揣好奇和热爱,如果你愿意探索和尝试用大数据技术为共克时艰付出自己的一份力、一份情,如果你渴望在这段难忘的、足不出户的日子里,全面立体地掌握运营商大数据体系,这本《掘金大数据》将是你最贴心的选择。
当当:
http://product.dangdang.com/26437322.html
京东:
https://item.jd.com/12507058.html
这个冬天,这些足不出户的日子,也许恰恰是见证个人成长的分水岭。让我们此刻保持距离而各自坚守,待到春暖花开之时,去彼此拥抱,去遇见那个更加博学多识的你。
更多内容欢迎关注公众号:通信大数据分析及应用