《链接》作者艾伯特-拉斯洛·巴拉巴西是科学界的一位巨星,全球复杂网络研究第一人,无尺度网络模型的创立者。他的论文被引用次数达到10万次,是诺贝尔物理学奖获奖呼声最高的一位候选者。
在《链接》这本书里,作者揭示了复杂网络的起源——从随机网络到无尺度网络。复杂性蕴含于万物之间的链接,我们看到在网络中,表面的无序和深层的有序共存。网络普遍具有先发优势、适者生存、健壮和脆弱并存的特点,枢纽节点和层级结构在各种网络中广泛存在。这些复杂网络的规律,成了我们今天高效利用大数据,进而发展人工智能的一把钥匙。
链接是无处不在的,复杂网络的本质是无尺度网络。充分理解网络无尺度的特点,对于我们理解和分析各种复杂事物大有裨益。抓住复杂网络中的枢纽节点,是我们处理复杂数据的基本原则,也是人工智能背后的深度神经网络的重要基础。
一、关于复杂网络的起源
在过去,人们认为网络都是随机形成的,把这些网络都叫作随机网络。一场酒会上人们从互不相识到彼此认识,就是一个随机网络形成的过程。每个人都不知道自己会认识谁,会认识几个人,所有节点之间的链接都是不确定的。作者指出,这种随机网络的形成速度非常快,门槛也非常低。只要每个人认识至少一个人,这100个人就能全部链接起来。
在现实生活中,每个人都认识很多人,所以链接更加紧密。由此产生了一个非常著名的理论,叫作六度分隔。你和这世界上任何一个人之间,最多通过6个人就能搭上关系。用随机网络来解释,每个人认识100个人,那么通过6个中间人,能搭上关系的人理论上有1万亿人,是地球人口的140倍。这就是随机网络的力量。链接无处不在。拥有海量信息的互联网也能做到从任何一个网页出发,平均只需要19次点击,就能跳转到另外任何一个网页。在自然界的食物链网络中,任何两个物种之间的平均间隔只有两个物种。六度分隔和类似的现象在生活中非常常见。
在随机网络的基础上,作者提出了“枢纽节点”这一概念和无尺度网络模型。枢纽节点指的是在一个网络中比其他节点拥有更多链接的节点。在人类社会中,枢纽节点就是那些社交面非常广、朋友非常多的人。网络的真实结构不是随机网络那样均匀分布的,现实生活中有些善于交际的人微信好友有几千人,有些爷爷奶奶的微信好友只有家里的几口人。一个网络的结构,主要是枢纽节点在支配、在起作用,而不是所有节点。我们人类社会能够保持紧密链接,靠的就是枢纽节点联系起不同的社交圈子。“社交圈”指的是一群人关系非常紧密,在整个社交网络中就是一个“小世界”,每个小世界里都有枢纽节点,他们除了圈子里的人,还认识很多圈外的人。这样就划分出了强关系和弱关系。同一个圈子里的人,他们的关系非常紧密,这是强关系。而从枢纽节点向其他圈子伸出去的橄榄枝,就是弱关系。在这样一个网络里,节点之间的重要性差别巨大,服从二八定律。二八定律说的是20%的成员占据了80%的资源,少数成员占有非常重要的位置。无尺度网络指的是:所有节点的重要性都服从于二八定律,有少量的枢纽节点非常重要,大量的节点没有那么重要,这样的网络,我们就叫它无尺度网络,因为无法用同样的尺度去衡量每一个节点。
无尺度网络的提出,颠覆了人们长期以来对复杂网络的认识。所有网络中都必然存在这种两极分化,而均匀的、完全随机的节点分布是不存在的。从随机网络,到无尺度网络,人们对复杂网络的认识加深了一步:随机网络是无序的、是杂乱无章的,而无尺度网络就是无序和有序并存的,一旦抓住枢纽节点,整个网络的结构就变得清晰,无序之中浮现出有序。
二、关于复杂网络的共有特点
复杂网络的共有特点主要有以下三个:先发优势、适者生存和健壮性与脆弱性并存。
1.先发优势
先发优势指的是:网络中越早产生的节点越容易成为枢纽节点。因为一个网络在开始时,节点数量不多,后来产生的节点,总是倾向于链接网络中已有的节点,最早的一批节点能获取到最多的链接。在微信公众号这样一个复杂网络中,节点的数量已经超过了2000万个,很多人羡慕做得早的公众号,它们中很多都成为了10万+的大号。后来进入这个网络的人,不管是后进场的公众号,还是后来关注公众号的用户,都愿意靠近已经存在于网络中的重要节点,这就是先发优势。
2.适者生存
适者生存指的是:竞争力更强,适应度更高的节点,能获取到的链接会更多。举个例子,公众号咪蒙起步很晚,2016年年初才开始更新,短短一年的时间里,粉丝数从0涨到了800万。它在公众号这样一个无尺度网络中成为了新的枢纽节点。因为它竞争力强,适应度高,它获取到的链接就会更多。一个公众号如果文章写得多写得好,能够引起更多人的共鸣和分享欲,即便一开始粉丝很少,但是在朋友圈得到的分享就会特别多,就能迅速成为无尺度网络中的枢纽节点。这就是所有复杂网络中共有的第二个特点:适者生存,优胜劣汰。
3.健壮性与脆弱性并存
健壮性和脆弱性分别指什么?健壮,是非枢纽节点被破坏后不影响复杂网络的结构,所以网络体现出健壮性的特点。因为除了枢纽节点以外的其他节点对整个网络来说都是次要的,砍掉这种节点,不会影响整个网络的连通。就像砍掉壁虎的尾巴,并不会要了它的命,甚至过一阵子还会再生一条尾巴出来。而脆弱性指的是:一旦枢纽节点被破坏,整个系统就会迅速崩塌,网络的结构发生了重大变化。就像戳中了壁虎的心脏,壁虎很快就会死亡。因为心脏是它的枢纽节点,即便身体的其他部分都完好无损,也无济于事。复杂网络因此具有健壮性和脆弱性并存的特点。
三、关于复杂网络与人工智能和大数据的关系
复杂网络是树根,大数据是树干,人工智能是枝叶。分析大数据的方法,以及人工智能背后的深度神经网络,都和无尺度网络有着非常紧密的关系。虽然网络科学的发展日新月异,但是最前沿的科技中同样渗透着无尺度网络,这个网络模型已经成为科学家搭建复杂网络、分析复杂网络的基础设施。复杂网络纵有千姿百态,无尺度都是它不变的内核。对无尺度网络的深刻洞察和广泛应用,加上海量的大数据对网络节点进行不断的训练和调整,才有深度神经网络和人工智能的存在。
传统的人工智能依赖科学家给它输入各种规则模型,只能解决一些规则清楚的问题。但是今天的人工智能已经能自己解决一些模糊的、规则不明确的问题,因为支撑它的是能够进行深度学习的神经网络。这种网络的特点是,具有多层结构,每一层神经网络都有很多个关键的节点,它们接收上一层处理完的数据结果,共同解决一个问题,把自己这一层的输出结果传递到下一层去做进一步的处理。现在最流行的深度神经网络分为两种:一种是处理空间分布数据的卷积神经网络,另一种是处理时间分布数据的循环神经网络。它们的结构特点,都与无尺度网络有着密不可分的关系。
1.卷积神经网络
卷积神经网络可以用来做图片识别,它对图片的分析方法和我们分析无尺度网络一样,要抓住枢纽节点。比如在一个分辨猫和狗的识图软件中,每一层神经网络都需要处理一种能把它们明显分开的特征,比如对脸部的分析,再把处理任务进一步细化,交给下一层去处理,比如瞳孔的粗细,直到最后一层处理单个像素。整个神经网络就是把区别猫和狗的任务拆解成许多任务,一层一层处理,抓住枢纽节点,刻画重要特征。
2.循环神经网络
循环神经网络可以用来做文字翻译,最新的应用就是“神经网络翻译”。过去的机器翻译,是把一句话里的字词做切分以后逐个翻译,再拼凑起来,经常出错。但是神经网络翻译会把一整句话看成表达完整意思的网络,进行整体分析。每一个字词作为枢纽节点的同时会寻找前后文中常见搭配的关键字词,寻找邻近的枢纽节点,从而区分出整句话中文字的重要性差异,把握住语句的基本结构和修饰性成分,从而实现更准确的翻译。神经网络翻译的错误率,比原来的机器翻译降低了55%到85%。