这个五一期间的一个高速塌陷新闻引起了我的注意,据红星新闻报道,灾害事故发生后,有博主在社交媒体平台建立的“梅龙高速塌陷”专题中提到,“当时,高德导航救了我,它提示前方发生事故让减速,我当时看到路上没车啊。”5月5日,红星新闻记者从高德地图获悉,高德导航系统的预警机制,是通过前方车辆速度的骤降来检测和提醒后方车辆用户注意安全驾驶。梅大高速茶阳路段发生塌方灾害时,高德首次急刹预警发出的时间是5月1日凌晨2:00左右,提醒后方车辆注意前车急刹,安全驾驶。此外,高德地图有驾车用户自行上报事故机制,塌方事故发生半小时内,也有数名用户上报事故,但因在夜晚期间,用户仅提示有事故,当时并未明确是塌陷事故。
高德地图的预警机制,很容易让我联想到近期在和客户处聊的网络运维中的故障检测和预警。尽管这一技术在学术界和工业界被关注和研究的历史几乎和TCP/IP网络一样漫长,但所有客户处的效果差强人意,经常出现网络故障告警滞后甚至严重滞后于用户体验劣化甚至用户投诉的现象。
随流检测是最近几年出现的一种新型网络故障检测技术,由网络设备制造商研发并内置于网络设备之中,通过在有限数量的IP流中抽取一定比例数据包,并在数据包头添加标记的方式,确保下游网络设备能够精确识别并记录这些数据包的到达时间戳等信息,通过对比上下游网络设备记录的数据包信息,计算出网络丢包、延迟、抖动等性能指标。
网络设备中内置的随流监测是一种被动测量技术,尽管节省了主动发包的带宽成本,但标记、识别、记录数据包信息仍要消耗可观的网络设备的计算和存储资源,因此只能采用抽样比极高的有限标记方式。此外,被动测量无法控制和预测用户流量的行为,属于靠天吃饭,除非对所有用户和应用的流量或者针对特定用户特定应用的流量进行全量分析,否则很难确保测量的连续性和完备性。但这又涉及到应用识别技术,恰好是网络设备制造商最短的短板。
于是,几乎所有的设备级随流检测功能都要求用户指定检测对象的IP五元组,但用户不是孙悟空,哪里有这样的火眼金睛?
这是网络设备中的IP层随流检测技术面临的现实困境,由于最艰难的问题被抛给了用户,导致用户在运维实践中很难发挥出随流检测的预期价值。
网络设备的IP层随流检测功能依赖于对数据包头的修改,属于侵入式随流检测技术,而梅大高速塌方灾害中高德地图的预警功能则属于非侵入式随流检测技术。在非侵入条件下成功预警道路灾害的关键并不是车速骤降判别算法,因为这个算法的逻辑是如此简单,几乎不构成任何技术门槛。高德地图的核心技术是能够精确识别和跟踪维护每一个驾车用户的行驶状态 ,精确识别这事高速公路管理部门做不到,而跟踪维护用户的行驶状态这事很多地图导航应用也做不到,或者没有做。
这就如同在互联网络中,识别每一个用户和应用的会话很难,跟踪维护每一个用户和应用会话的状态、尤其是在网络中每一个节点的状态就更难了。对于网络设备制造商来说,二者都是不可能完成的任务。
当然沿途埋下密集的道路监测传感器或者每隔五十步安装路况监控摄像头也不是不可以,只是这类方案不仅成本高到无法接受,而且即便不计成本地进行了部署,也未必能精确识别和跟踪维护每一辆车的运行状态,因为这两件事不仅计算和存储成本很高,而且从海量的数据中提取和抽象有效的规则也并不容易。
在网络管理和运维技术体系中,基于对链路物理状态和对聚合流量监控分析的网络故障检测方法已经被研究了很多年 ,但目前仍在研究探索阶段,据说大模型都已经安排上了。无他,仅仅依靠网络层数据去分析网络故障,太难了。
即便困扰高速公路管理部门的难题被研究出来了,通过什么接口把信息传递给驾车用户又是个难题,总不能每隔五十步安装一组高音喇叭或者巨型屏幕吧。如果通过短信或者微信或者抖音或者地图导航软件呢?首先这些平台是否愿意开放接口是个绕不过去的问题,而即使绕过去了,万一用户的注意力不在这些应用上呢?这是一个开放问题,开放到了超出一般商业规则或者社会治理规则的地步。相比之下,高德地图在自身平台形成闭环反而是一种聪明的选择,虽不能万无一失,但对于高德地图的用户而言,成功率已经可以接受了。
智能交通和网络自动驾驶的问题虽然看起来错综复杂,但实际上都是用户应用和基础设施之间的信息如何流通的问题,即如何通过数据和信息流动形成垂直方向上的互联互通的问题。
互联网的生命力全在开放系统互联,即互联互通。只有互联互通才能形成麦卡夫效应,产生指数级价值增量。 到目前为止,一般所说的互联网互联互通仍然主要是指网络层互联互通,是水平意义上的互联互通。尽管万物互联的未来预期有望将网络规模提升数以万倍,但在漫长的时间尺度上,这种规模的增长并不足以支撑工业革命级别的增量需求,在网络层通过麦卡夫效应创造指数级价值的潜力已经趋于极限。但另一方面,互联网应用之间以及应用和网络之间的互联互通尚处于从零到一的草创阶段,潜力不可限量,但在商业、社会、制度等等非技术领域面临的艰难险阻同样不可限量。
这是人工智能之所以在最近崛起的历史背景以及现实条件。
人工智能是一种凌驾于现有互联网应用层之上的应用层 ,当相互割据的互联网应用下沉为基础设施 ,不同应用之间不可逾越的壁垒以及应用层和网络层之间的壁垒才也可能被时间融化。
都是底层服务 ,还分什么你我他。
二十多年前 ,电信运营商既是最大的CP也是最大的SP ,一时风光无两 ,但是跨运营商互联互通比异地恋还要艰难。
然而互联网应用规模化之后 ,这些壁垒也随风而去。
现在互联网产业的发展也触碰到了天花板,应用层的寒意首先通过PCDN传导到了电信运营商。
在应用层之上的应用层形成规模之前,此事可能不仅无解 ,而且会加速互联网行业的均值回归。
一千个应用的眼中有一千种关于网络服务质量的定义,但在网络眼里,八种服务质量等级就已经属于严重的过度设计。在现实运维场景中,网络服务质量往往只有好坏、多寡、通断之分,大部分网络性能指标只是对这种二元状态更为感性的描述。
这种拧巴纠结的状态实际上是网络资源供给能力遭遇瓶颈的表现,并不属于技术能够解决的范围。很多被寄予厚望的技术,很多只是起到了缓解焦虑的功效
网络作为基础设施的核心资产是资源而不是技术,核心能力是资源供给能力,其生存之道在于不断提升资源规模以及资源供给能力,这些都是极度烧钱且必须持续烧钱才能维持的能力。在基础设施当中,技术的价值在于提升资源的转化效率,技术本身并不能弥补资源和资金的长期缺口,但技术可以对抗资源供需当中短暂的不平衡,与充足的资源叠加形成风险对冲能力。而基础设施行业一旦遭遇营收和利润瓶颈,资源供给能力以及资源转化的技术能力往往同时受损,技术能力衰退带来的负面效果与资源供给能力不足问题叠加,以大范围故障的方式表现出来,甚至出现多米诺骨牌效应。
生产力决定生产关系,在生产力停滞不前的境况下,无论是知识和信息的产能还是信息载体和传输技术、信息网络规模都会止步于某个界限之内,无法突破。
而每一次信息技术的革命以及人类抽象世界能力的突破,都是生产力革命的必然结果。近代持续不断的信息技术革命、信息网络扩张以及科学技术、思想文化的爆发式增长,无不得益于工业革命带来的生产力快速提升,而互联网既是第三次工业革命的产物,又被视为第三次工业革命向第四次工业革命演进的加速剂和催化剂。
无论现在的互联网行业是否进入了寒冬,信息的流动总归会产生推动社会进步的力量,所以现在最值得关注的问题,并不是互联网行业何时会冬去春来,而是人类信息技术革命的下一个突破口将会出现在哪里。
按照人类漫长历史中历次信息技术革命的一般性规律,突破口大概率会发端于人类获取信息的接口,这个接口曾经是岩壁、竹简、纸张、电报、电话、电脑、手机,每一次信息技术革命都以一种新的信息接口诞生为标志,而每一种信息接口的诞生都极大地提升了人类获取信息的带宽,极大地扩张了信息网络的规模。下一次信息革命,也概莫能外。
在最近的几年中,无论是小米、华为造车,还是苹果推出VR眼镜,抑或马斯克发力的脑机接口和人形机器人,都是有别于传统信息接口的新型形态,都致力于变革人机交互的方式,不仅使用门槛几乎消失,而且更加便捷,能提供更大的带宽,以及更加强大的信息搜索、整合和抽象、归纳能力。这一切都要求新的人机接口必须具备一个全新的特性:更加智能。
而人类历史上曾经出现过的所有形态的信息接口,要么完全不具备智能属性,要么只能完成简单的信息检索和推荐功能,远远谈不上智能。
智能属性的加入将会颠覆现有的互联网格局,传统的不具备智能的信息接口将会被淘汰或下沉到基础设施层面,而智能的人机接口将呈现出缤纷的形态,万物皆为智能终端的时代将会到来。
我认为这才是万物互联的真正含义,单纯提供信息传递功能的接口并不能将万物与人类社会在信息层面深度融合,一个与社会网络隔离解耦的物联网,最多只能算是被连接起来的物品集合,不可能产生麦卡夫效应。
异军突起的英伟达显卡和OPENAI引领的人工智能技术,同样服务于这一目标,如果仅仅把人工智能视为对现有信息生产和处理方式的改良,很可能会误判信息技术发展的方向。每一次信息技术的革命,都不单纯是为了解决上一个时代的老问题,而是为了打开一个全新的时代,让价值以前所未有的方式和规模涌现。
而当下各种对信息接口的技术性探索,仅仅是革命大幕拉开前的暖场活动而已,因为这些看起来很新的技术,都必须在第三次工业革命塑造的生产力水平和能源供给模式划定的边界条件内进行非常有限的尝试,这些边界条件也同时约束了全球信息的产能和处理、存储、传播效率。
最近几年来,传统的基于RFC2544的网络测量技术以及语焉不详的丢包率、RTT、Jitter老三样网络服务质量指标体系,早已经无法适应以互联网应用和用户体验为核心网络日常运维,几乎退化为网络资产up-down状态管理功能。如果追根溯源,很容易发现这些依附于网管系统的网络测量技术从诞生之日起就不具备业务管理和用户体验管理的基因,其设计的初衷就是资产管理。在这种基础之上,无论如何改进和优化,都有可能是增强版的鸡同鸭讲。
因此我认为向现有网络技术体系中注入各种智能的努力很有可能是看起来很美的屠龙之技,因为在一个以时间换资源为核心设计原则的技术体系中,复杂的智能最多在皮毛层面发挥聊胜于无的作用,而且由于这些智能技术本身就与尽力而为的网络服务冲突,因此造成混乱的风险亦不容小视
回到梅大高速这个话题 ,拥有地图业务且“All in”人工智能的互联网大公司们,并不是都能把自家的人工智能和自家地图“拉通”,也并不是都能用自家的人工智能给自家地图“赋能” 。
应用层的逻辑和应用层之上的应用层的逻辑 ,非常不一样,这也不是技术问题,在与问题同样的维度正面进攻问题,往往很难奏效,但从高维攻击低维,就简单得多得多。
只是脱离低维层面进入高维层面,实在是太难了。
难于上青天
故障检测和预警
©著作权归作者所有,转载或内容合作请联系作者
- 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
- 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
- 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
推荐阅读更多精彩内容
- 故障简介 ACID是事务的四个特性,其中D(Duration)就是讲的持久性,数据库的一大价值就在于可以有效处理的...
- 段浩 徐梦 北京中研硕福科技有限公司 本文发表于《中国工业和信息化》杂志2020年4月刊总第22期 党中央、国务院...
- 准备花三个月读完 ,陆陆续续放出一些读书笔记。 个人背景介绍 本科与研究生都就读于南京大学计算机科学与技术系。研究...
- 来源:Lidong Wang, “Big Data in Intrusion Detection Systems ...