注:此文有大量原文引用,但并无牟利目的,如涉及版权问题,请通知本人下架。另禁止转载。
[格式]
原文摘录
我的批注
作者:梅拉妮·米歇尔
前言
1、还原论
(1)介绍
从 17 世纪以来,还原论
就一直在科学中占据着主导地位。
还原论最早的倡议者之一笛卡儿
这样描述他的科学方法:“将面临的所有问题尽可能地细分, 2 细至能用最佳的方式将其解决为止”,并且“以特定的顺序引导我的思维,从最简单和最容易理解的对象开始,一步一步逐渐上升,直至最复杂的知识”。
(2)局限性
还原论的计划在许多现象面前都止步不前:天气和气候似乎无法还原的不可预测性;生物以及威胁它们的疾病的复杂性和适应性;社会的经济、政治和文化行为;现代技术与通讯网络的发展和影响;智能的本质以及用计算机实现智能的可能前景。
2、新的学说
对复杂行为如何从简单个体的大规模组合中出现进行解释时,混沌、系统生物学、进化经济学和网络理论等新学科胜过了还原论,反还原论者的口号——“整体大于部分之和”—也随之变得越来越有影响力。
20世纪中叶,一些人开始尝试建立新的基础,这其中包括控制论、协同学、系统科学,以及最近才出现的——复杂系统科学
。
第一部分 背景和历史
第1章 复杂系统
1、例子
自然界中的各种复杂系统
——比如昆虫群落、免疫系统、大脑和经济.
2、共性
复杂系统存在很多共性:
- 拥有复杂的集体行为。
- 遵循规则,但却不存在中央控制或领导者。
- 信号和信息处理:所有这些系统都利用来自内部和外部环境中的信息和信号,同时也产生信息和信号。
- 适应性:所有这些系统都通过学习和进化过程进行适应,即改变自身的行为以增加生存或成功的机会。
3、介绍
定义1:
复杂系统是由大量组分组成的网络,不存在中央控制,通过简单运作规则产生出复杂的集体行为和复杂的信息处理,并通过学习和进化产生适应性。
定义2:
如果系统有组织的行为不存在内部和外部的控制者或领导者,则也称之为自组织
(self-organizing)。由于简单规则以难以预测的方式产生出复杂行为,这种系统的宏观行为有时也称为涌现
(emergent)。这样就有了复杂系统的另一个定义:具有涌现和自组织行为的系统。
一门新的科学形成的过程,就是不断尝试对其中心概念进行定义的过程。
第2章 动力学、混沌和预测
1、动力学
(1)介绍
动力系统理论
(动力学, dynamics)关注的是对系统的描述和预测,其所关注的系统通过许多相互作用的组分的集体行为涌现出宏观层面的复杂变化。
动力一词意味着变化。而动力系统则是以某种方式随时间变化的系统。
近年来,动力系统理论很受大众关注,这是因为它的一个分支——混沌学
——发现了一些让人着迷的结果。
下面会提到。
(2)线性系统与非线性系统
在物理科学中,如果描述某个系统的方程其输入(自变数)与输出(应变数)不成正比,则称为非线性系统
。
由于自然界中大部分的系统本质上都是非线性的,因此许多工程师、物理学家、数学家和其他科学家对于非线性问题的研究都极感兴趣。
非线性系统跟线性系统相比的特点在于:
- 不满足叠加定理(整体不等于部分之和)
- 不一定存在唯一解(或不一定存在唯一的平衡状态)
- 对初始值极度敏感(所以才有”蝴蝶效应”)
结果就是:非线性系统可能会导致混沌、不可预测,或是不直观的结果。
2、混沌学
(1)混沌学之前
亚里士多德是目前所知的最早论述运动理论的人之一。
再到牛顿力学的世界里人们想象着可以知道参数和规律来作”精确预测“。
然而混沌的发现给了精确预测的梦想最后一击。
(2)混沌学诞生
混沌学属于非线性科学。混沌理论(Chaos theory)是关于非线性系统在一定参数条件下展现分岔、周期运动与非周期运动相互纠缠,以至于通向某种非周期有序运动的理论。
所以非线性系统的特点它都有。
第一个明确的混沌系统的例子可能是19世纪末由法国数学家庞加莱(Henri Poincaié)给出。庞加莱是现代动力系统理论的奠基者,可能也是贡献最大的人,大力推动了牛顿力学的发展。
(3)混沌学的常见误解
1、混沌是随机而不可预测的
混沌不是随机的,而是确定的。 而难以预测是因为在混沌系统中:
- 对初值进行哪怕及其微小的扰动,都会极大地影响系统后来的变化趋势。
- 数值的误差(包括初值测量的误差和计算误差)
但我们无法完美掌握上面两项,所以混沌显得随机,且无法预测。
但在大量混沌系统的普适共性中却有一些“混沌中的秩序”,即在更高的层面上混沌系统却是可以预测的。例如通往混沌的倍周期之路,以及费根鲍姆常数。
第3章 信息
1、熵是什么
(1)热力学
① 定义
化学及热力学中所谓熵,是一种测量在动力学方面不能做功的能量总数,也就是当总体的熵增加,其做功能力也下降,熵的量度正是能量退化的指标。
打个比方,假设你的车在路上抛锚了,你不得不自己把车推到最近的加油站。用物理学的话讲,你做的功等于你推车的力的大小乘以到加油站的距离。在推车的过程中,你将你体内储存的能量转化成了车的动能,而转化的能量就等于所做的功加上轮子与地面摩擦消耗的热量以及你自己体温升高所耗费的热量。这个热量损失可以用熵度量。熵
是对不能转化成功的能量的度量。
“熵(entropy)”一词源自另一个古希腊词汇——“trope”——意思是“变成”或“转化”。
② 麦克斯韦妖
1871年,麦克斯韦在《论热能》(Theory of Heat)一书中提出了一个难题,题为“热力学第二定律的局限”。麦克斯韦假设有一个箱子被一块板子隔成两部分,板子上有一个活门。活门有一个“小妖”把守,小妖能测量气体分子的速度。对于右边来的分子,如果速度快,他就打开门让其通过,速度慢就关上门不让通过。对于左边来的分子,则速度慢的就让其通过,速度快的就不让通过。一段时间以后,箱子左边分子的速度就会很快,右边则会很慢,这样熵就减少了。
这就违背了热力学第二定律。而当时有的人反驳说一定有什么能量的耗费但没有被探测到。
后来数学家班尼特( Charles Bennett)证明, 有非常巧妙的方式可以观察和记住信息——对小妖来说,也就是弄清分子是快是慢——而不用增加熵。班尼特的证明成了可逆计算( reversible computing)的基础,他证明在理论上可以进行任何计算而不用耗费能量。
不过,班尼特认为,物理学家兰道( Rolf Landauer)在 20 世纪 60 年代做出的一项发现可以挽救热力学第二定律:并不是测量行为,而是擦除记忆的行为,必然会增加熵。擦除记忆是不可逆的;如果被擦除了,那么一旦信息没有了,不进行额外的测量就无法恢复。班尼特证明,小妖如果要工作,到一定的时候就必须擦除记忆,如果这样,擦除的动作就会产生热(当初获取信息则需要额外做功),增加的熵刚好抵消小妖对分子进行分选而减少的熵。
这证明物理和精神并非完全独立。
(2)统计力学
① 定义
熵亦还被用于计算一个系统中的失序现象,也就是计算该系统混乱的程度。
② 统计力学
统计力学
(Statistical mechanics)是一个以玻尔兹曼
等人提出以最大熵理论为基础,借由配分函数将有大量组成成分(通常为分子)系统中微观物理状态(例如:动能、势能)与宏观物理量统计规律 (例如:压力、体积、温度、热力学函数、状态方程等)连结起来的科学。
例如温度,统计力学认为宏观尺度上的属性(例如热)是由微观属性产生(例如无数分子的运动)。
③ 经典力学 vs 统计力学
经典力学分析是确定每个分子的位置和速度,以及作用在分子上的力,并根据这些确定每个分子未来的位置和速度。
而统计力学的方法则不关心各个分子具体的位置、速度以及未来的变化,而是去预测大量分子整体上的平均位置和速度。
统计力学在两个极端之间搭建了一座桥梁,解释了宏观现象是如何从对大量微观对象的整体上的统计产生。
④ 统计力学局限性
它只给出系统的可能行为。
(3)信息论
信息论对物理学的各领域是否有反向影响还有争议。
① 介绍
数学家香农
(Claude Shannon)发展信息论也是受20世纪的通讯革命推动,尤其是电报和电话的发展。
在1948年,香农将热力学的熵,引入到信息论,叫信息熵
,又被称为香农熵
(Shannon entropy)。
在信息论里面,信息熵是随机事件不确定性的度量。
具体有点复杂,这里不做展开了。
② 应用
信息论是密码学和新兴的生物信息学的基础,生物信息学通过分析基因序列的模式测量熵等信息论度量。
信息论也被应用到语言和音乐的分析,以及心理学、统计推断和人工智能等领域。
③ 前景
一些基于香农信息论的物理学新思路(例如量子信息论和信息物理学)正不断发展。
2、 熵增定律
熵增定律即热力学第二定律
。
热力学第一定律即
能量守恒定律
。
熵增定律
。即熵总是不断增加直至最大。
热力学第二定律被认为是定义了“时间之箭”,因为它证明了存在时间上不可逆的过程(比如,热量自发地回到你的冰箱,并转化成电能进行制冷)。“未来”可以定义为熵增的时间方向。
有趣的是,热力学第二定律是唯一区分过去和未来的基本物理定律。“为什么第二定律能区分过去和现在,而其他自然定律却不能?这也许是物理学中最大的谜团。”
我认为,热力学第二定律,在自然界的定律中具有至高无上的地位……如果你的理论被发现违背了热力学第二定律,你就一点希望都没有,结局必然是彻底崩塌。
第4章 计算
1、哥德堡不完备性定理
大数学家希尔伯特
很有信心,断言“不存在不可解的问题”。
一位25岁的数学家宣布了对不完备性定理的证明,他的发现震惊了整个数学界,这位年轻人名叫哥德尔(KurtG?del)。
哥德尔的证明很复杂。不过直观上却很容易解释。哥德尔给出了一个数学命题,翻译成白话就是“这个命题是不可证的”。
2、图灵停机问题
具体可参考这个视频:动画通俗解释-为什么图灵停机问题计算机永远无法解答?
结论:计算存在局限。
3、总结
量子力学和混沌摧垮了精确预测的希望,哥德尔和图灵的结果则摧垮了数学和计算无所不能的希望。
第5章 进化
1、生物的熵
熵的减少(生命系统结构越来越复杂,就像设计过的)是自然选择的结果。这个过程所需的能量来自生物从环境中获取的能量(阳光、食物等)。
2、现代综合进化论
(1)介绍
将达尔文理论和孟德尔遗传学这两个重要发现结合,再加上群体遗传学等生物学的分支,共同形成了后来所谓的“现代综合( the Modem Synthesis)”。
群体遗传学( population genetics)用来理解在孟德尔遗传学和自然选择作用下演化种群的等位基因的动力学。
现代综合在20世纪30、40年代得到了进一步发展,并形成了此后50年被生物学家普遍接受的一系列进化原则。
具体原则看原书。略。
(2)质疑
①
古尔德和埃尔德雷奇等人提出,现代综合预测的生物形态渐变不符合实际的化石记录:生物形态在很长时间里都没有变化(也没有新物种出现),而在(相对)很短的时间里形态却出现了剧烈变化,并产生出新的物种。这个特点被称为间断平衡
( punctuated equilibria)。
另有一些人则维护现代综合,认为化石记录很不完整,不能做出这样的推断。
②
古尔德同意自然选择是进化很重要的机制,但他认为历史偶然和生物约束(biological constraints)的作用至少同样重要。
生物约束则是指自然选择所能创造的会有局限。显然自然选择不能违背物理定律—它不能创造出违反万有引力定律的飞禽或是无须进食的永动动物。古尔德等人认为,同物理约束一样,生物约束也对生物的进化有限制。这个观点很自然延伸出一个结论,就是并不是生物的所有性状都能用“适应性”解释。饥饿感和性欲这些性状显然能增加我们的生存和繁衍机会。
但有些性状可能是来源于偶然,或是适应性状和发育约束的旁效应。古尔德经常批评他所谓的“绝对适应论者”。
③
20 世纪 60 年代,木村( Motoo Kimura)根据对蛋白质进化的观察提出了“中性进化”的理论, 80 挑战自然选择在进化中的中心地位。
(3)小结
虽然古尔德和埃尔德雷奇等人挑战了现代综合的信条,他们却同所有生物学家一样,仍然拥护达尔文主义的基本思想。
第6章 遗传学概要
主要是一些高中生物的遗传学知识,这里略。
第7章 度量复杂性
1、复杂性不好度量
原因是复杂性科学不止一个,而是有好几个,每个对复杂性的定义都不一样。
核心概念缺乏公认的定义是很普遍的。牛顿对力的概念就没有很好的定义,事实上他不是很喜欢这个概念,因为它需要一种魔术般的“远距离作用”,而这在对自然的机械论解释中是不允许的。遗传学作为生物学领域发展最快和最大的学科,对于如何在分子层面上定义基因的概念也没有达成一致。心理学家对思维和概念也没有明确的定义,更不知道它们在大脑中对应的是什么。这还只是部分例子。科学的进步往往就是通过为尚未完全理解的现象发明新术语实现的:随着科学逐渐成熟,现象逐渐被理解,这些术语也逐渐被提炼清晰。
2、度量方法
用大小度量复杂性
① 介绍
例如进化中,比较生物个体的基因的个数或碱基对的个数。
② 局限性
如果比较碱基对数量,人类比酵母复杂 250 倍,如果比较基因数量,人类则只比酵母复杂 4 倍。 250 倍还是蛮多的,看来人类还是挺复杂,至少比酵母复杂。不过单细胞变形虫的碱基对是人类的 225 倍,拟南芥的基因与人类的大致一样多。
用熵度量复杂性
① 介绍
上面有介绍,这里略。
② 局限性
最复杂的对象不是最有序的或最随机的,而是介于两者之间。
用算法信息量度量复杂性
① 定义
能够产生对事物完整描述的最短计算机程序的长度。这被称为事物的算法信息量。
② 局限性
盖尔曼认为任何事物都是规则性和随机性的组合。
用逻辑深度度量复杂性
① 介绍
一个事物的逻辑深度是对构造这个事物的困难程度的度量。
为了更精确地定义逻辑深度,班尼特将对事物的构造换成了对编码事物的0/1序列的计算。例如,我们可以用两位二进制数来编码核苷酸符号:A=00,C=01,G=10,T=11。用这个编码,我们就能将A、C、G、T转换成0/1序列。然后编写一个图灵机,用编写好的图灵机在空白带子上产生出这个序列,所需要的时间步就是其逻辑深度。
② 局限性
逻辑深度具有很好的理论特征,符合我们的直觉,但是也没有具体给出度量实际事物复杂性的方法,因为没有寻找生成指定事物的最小图灵机的可操作方法,更不要说如何确定机器运算所需的时间。此外也没有考虑将事物表示成0/1序列的困难。
用热力学深度度量复杂性
① 介绍
热力学深度首先是确定“产生出这个事物最科学合理的确定事件序列”,然后测量“物理构造过程所需的热力源和信息源的总量”。
例如,要确定人类基因组的热力学深度,我们得从最早出现的第一个生物的基因组开始,列出直到现代人类出现的所有遗传演化事件(随机变异、重组、基因复制,等等)。可以想象,人类进化出来的时间比变形虫要长10亿年,热力学深度肯定也大得多。
② 局限性
同逻辑深度一样,热力学深度也只是在理论上有意义,要真的用来度量复杂性也存在一些问题。
也有批评意见指出,劳埃德和裴杰斯的定义中没有明确界定什么是“事件”。
用计算能力度量复杂性
① 介绍
一种观点认为,系统的计算能力如果等价于通用图灵机的计算能力,就是复杂系统。
② 局限性
不过,班尼特等人则认为,具有执行通用计算的能力并不意味着系统本身就是复杂的;应当测量的是系统处理输入时的行为的复杂性。
这个好难懂。
用分形维度量复杂性
① 分形
分形最经典的例子是海岸线。
- 你以人或是以蜗牛的视角近距离观察岩石,相似的景象还是会一次又一次出现。海岸线在不同尺度上的相似性就是所谓的“自相似性”。
- 你以人或是以蜗牛的视角近距离观察岩石,去衡量海岸线的长度,也是不一样。衡量尺度越小,长度也趋近于越大。
现实世界中许多事物都有自相似结构。海岸线、山脉、雪花和树是很典型的例子。曼德布罗特甚至提出宇宙也是分形的,
但一般来说分形指的是“在任何尺度上都有微细结构”的几何形状。
② 分形维
将几何结构从各边分成X等份,不断重复这个过程。每次得到的将是前一次的个拷贝。根据维数的这种定义,直线是1维,正方形是2维,立方体是3维。都没有问题。现在将这个定义类推到科赫曲线。每次直线段都是之前的1/3长,而得到的则是之前的4个拷贝。根据前面的定义,应该是3维数=4。维数是多少呢?这里我们直接给出结果104(计算过程在注释中给出),根据前面的规律,维数约为1.26。也就是说,科赫曲线既不是1维也不是2维,而是介于两者之间。太奇怪了,分形的维数居然不是整数。这正是分形的奇特之处。
但只有完美的分形——可以缩小直至无穷——才有精确的分形维数。像海岸线这类真实世界的有穷类分形事物,我们只能测量近似的分形维数。
③ 用分形维衡量复杂度
分形维表示了物体的“粗糙度”、“凸凹度”、“不平整度”或“繁杂度”;物体的“破碎”度;还有物体的“结构致密”程度。
分形维数一定程度上量化了细节的有趣程度与你观察的放大率之间的关系。这也就是为何人们对用分形维数度量复杂性感兴趣,许多科学家都用其来度量真实世界的现象。
用层次性度量复杂性
① 介绍
文中西蒙提出一个系统的复杂性可以用层次度(degree of hierarchy)来刻画:“复杂系统由子系统组成,子系统下面又有子系统,不断往下。”
复杂系统最重要的共性就是层次性和不可分解性。西蒙列举了一系列层次结构的复杂系统——例如,身体由器官组成,器官又是由细胞组成,细胞中又含有细胞子系统,等等。某种程度上,这个观念与分形在所有尺度上都自相似类似。不可分解性指的是,在层次性复杂系统中,子系统内部的紧密相互作用比子系统之间要多得多。例如,细胞内部的新陈代谢网络就比细胞之间的作用要复杂得多。
② 局限性
嵌套仅仅描述了生物的结构,而不涉及其功能。
第二部分 计算机中的生命和进化
第8章 自我复制的计算机程序
DNA不仅包含自我复制的“程序”(例如用来解开和复制DNA的酶),同时也编码了它自己的解释器(将DNA转译成酶的细胞器)。
冯·诺依曼设计的自复制自动机
是人工生命科学真正的先驱之一,从原则上证明了自我复制的机器的确是可能的,并且提供了自我复制的“逻辑”,后来证明其与生物的自我复制机制惊人的相似。
冯·诺依曼都是真正的天才。在相对短暂的一生中,他至少在6个领域作出了基础性的贡献:数学、物理、计算机科学、经济学、生物学和神经科学。
第9章 遗传算法
在对“机器能否复制自身”的问题给予肯定回答后,冯· 诺依曼很自然地想让计算机(或计算机程序)复制自己和产生变异,并在某种环境中为生存竞争资源。这就会遇到前面提到的“生存本能”以及“进化和适应”的问题。可惜的是冯· 诺依曼还没有研究进化问题就去世了。其他人很快就开始继续他留下的工作。 20 世纪 60 年代初,一些研究团体开始在计算机中进行进化实验。这些研究现在统称为进化计算
( evolutionary computation)。其中最为著名的是密歇根大学的霍兰德和他的同事、学生进行的遗传算法
( genetic algorithms)研究。
遗传算法已被用于解决科学和工程领域的许多难题,甚至应用到艺术、建筑和音乐。
第三部分 大写的计算
第10章 元胞自动机、生命和宇宙
1、介绍
详细了解可以看这个视频:用游戏模拟森林火灾?什么是元胞自动机?
在 N * M 的格子里,每个格子放着灯泡,灯泡每一步如何“决定”是开还是关呢?它们都遵循一些规则,根据邻域内灯泡的状态—也就是相邻的 8 个灯泡和它自己的状态——来决定下一步的状态(是开还是关)。
这个灯泡阵列其实就是一个元胞自动机
。元胞自动机是由元胞组成的网格,每个元胞都根据邻域的状态来选择开或关。(广义上,元胞的状态可以随便定多少种,但是这里我们只讨论开/ 关状态。)所有的元胞遵循同样的规则,也称为元胞的更新规则,
为什么说这么简单的系统会是复杂系统的理想化模型呢?
因为冯·诺依曼证明他的元胞自动机等价于通用图灵机(虽然她的结构完全不同于计算机)。元胞的更新规则扮演了图灵机读写头的规则的角色,而元胞阵列的状态则相当于图灵机的带子——也就是说,它可以编码通用图灵机运行的程序和数据。元胞一步一步的更新相当于通用图灵机一步一步的迭代。能力等价于通用图灵机的系统(也就是说,通用图灵机能做的,它也能做)被称为通用计算机,或者说能进行通用计算。
2、元胞自动机 vs 图灵机
① 输入、输出、中间态
图灵机略。
我们可以说元胞自动机的信息就是元胞格子在每一步的状态组合。输入就是初始状态组合,输出则是最终的状态组合,在每个中间步的信息则根据元胞自动机规则在元胞邻域内进行传递和处理。
② 输入、输出、中间态的解读
图灵机输入和输出的信息的意义来自于人们(程序员或使用者)的解读。中间步骤产生的信息的意义也来自人们对高级语言命令步骤的解读(或设计)。
元胞自动机意义来自人们对所执行的任务的认识以及对从输入到输出的映射的解读(例如,“元胞最终都变成了白色;这意味着初始状态组合中白色元胞占多数”)。但中间步骤产生的信息,在这个层面上描述信息处理就类似于在“机器码层面”进行描述,我们也需要一种高级语言来理解中间步骤的计算,对元胞自动机底层的具体细节进行抽象。
③ AI 解读
(虽然目前阶段)信息对于计算机本身是没有意义的,只对人类创造者和“最终使用者”才有意义。
AI的终极目标是让人摆脱意义的怪圈,并且让计算机本身能理解意义。这是AI中最难的问题。数学家罗塔(Gian-Carlo Rota)称这个问题为“意义屏障
”,不知道AI是否或何时能“破解”它。
3、局限性
①
不过,实际上,稍微复杂一点的计算就需要大量逻辑运算,并以各种方式相互作用,因此要设计出能实现复杂计算的初始设置基本不太可能。即使设计得出来,计算也会慢得让人无法忍受。
因此没有人用生命游戏(或其他“通用”元胞自动机)来进行真实计算或是模拟自然系统。我们只是想利用元胞自动机的并行特征以及它产生复杂图形的能力。
②
正如上面2、元胞自动机 vs 图灵机所说。
冯·诺依曼结构的计算之所以容易描述,一个原因就是,编程语言层面和机器码层面可以毫无歧义地相互转化,因为计算机的设计让这种转化可以很容易做到。计算机科学提供了自动编译和反编译的工具,让我们可以理解具体的程序是如何处理信息的。而元胞自动机则不存在这样的编译和反编译工具,至少目前还没有,也没有实用和通用的设计“程序”的高级语言。用粒子来帮助理解元胞自动机高级信息处理结构的思想也是最近才出现,还远没有形成此类系统的计算理论体系。
第11章 粒子计算
是用遗传算法设计元胞自动机规则。
看不懂,略。
第12章 生命系统中的信息处理
1、信息与计算
在许多人看来,信息具有本体地位,同质量和能量一样,被当做实在的第三种基本成分。在生物学中尤其如此,将生命系统描述成信息处理网络已成为潮流。
信息不像在传统计算机中那样,位于系统中的某个具体位置。在这里它表现为系统组分的动态模式和统计结果。
计算是复杂系统为了成功适应环境而对信息进行的处理。
2、实例
- 虽然免疫系统攻击外来病原体,它也还是有义务在攻击的毒性和尽可能防止伤害身体之间进行平衡。免疫系统使用了一系列机制来实现这种平衡(目前对这些机制还知之甚少)。其中许多机制都依赖于一组信号分子,被称为细胞因子( cytokines)。
- 类似的这种利用信息素与其他个体直接交互的机制可能也是其他种类蚂蚁和社会昆虫集体行为的基础。
3、信息是如何被传递和处理的
(1)采样探测
没有哪个个体组分能感知或传达系统状态的“宏观画面”。信息必须通过空间和时间采样来传递。
由于获得的信息具有统计性,系统组分的行为就必然是随机的(至少“不可预测”)。
(2)微粒化探测
微粒化探测复杂生物系统绝大多数都有微粒化结构,它们由大量相对比较简单的个体组成,个体以高度并行的方式协同工作。这种结构有几个可能的好处,稳健、效率高、可以演化。还有一个额外的好处就是微粒化并行系统能进行侯世达所说的“并行级差扫描
( parallel terraced scan)”。他指的是对许多可能性和路径同时进行探测,某项探测所能获得的资源依赖于其当时的成效。搜索是并行的,许多可能性被同时探测,但是存在“级差”,意思是并不是所有可能都以同样的速度和深度进行探测。利用获得的信息不断调整探测,从而有所侧重。
不仅如此,微粒化系统天生具有冗余度,因此即使有个体组分不能可靠工作,获取的信息也只是统计性的,系统还是能正常运转。冗余度使得对信息有许多独立的采样,而且只有大量组分采取同样的微粒化行动时才会产生效果。
(3)探测需要平衡
随机性必须与确定性达成平衡:复杂适应系统的自我调节不断调整各项事务的概率——个体应该向哪里移动,它们应当采取什么行动,以及如何探测庞大空间中的具体路径。
对于所有的适应性系统,在两种探测模式中保持适当的平衡都是关键。而最优的平衡点随时间不断变化。开始时所知的信息很少,探测基本是随机分散的。随着信息增多并产生影响,探测逐渐变得具有确定性,集中于对系统的感知进行响应。简而言之,系统既要探测信息,又要对信息加以利用,不断调整适应。在分散探测
和集中行动
之间进行平衡(即搜索和开发之间进行平衡)可能是适应性和智能系统的共性。
例如,蚁群的解决方案是让大部分蚂蚁采取两种策略的组合:不断随机搜索与简单地跟随信息素轨迹并沿途留下更多信息素的反馈机制相结合。
(4)遗留难题
但是在前面描述的复杂系统中,并不存在中央控制或领导者,那么是谁或是什么在觉察当前情势的意义 ,然后据此做出适当的反应呢?这个问题实际上问的就是什么构成了生命系统的意识或自我意识。对我来说,这个问题是复杂系统研究和整个科学最深的谜团。这个谜团是许多科学和哲学书的主题,但是至今还没有让人完全满意的答案。
第13章 如何进行类比(如果你是计算机)
1、什么是类比
类比是在两个表面上不同的事物之间发现抽象的相似性的能力。
人们在各种层面上都能很好地认识到两种事物和情形之间的类似之处,让各种概念从一种情形流畅地“滑到”另一种情形。
19 世纪哲学家梭罗( Henry David Thoreau)说的,“所有对真理的认识都是通过类比得来。”
2、计算机的类比
计算机的类比能力可以说是臭名昭著。
人类的大部分言辞原则上讲都有些模棱两可,而现代计算机则对上下文一点也不敏感。
明斯基(Marvin Minsky)是人工智能的先驱之一,他曾简明扼要地总结AI的悖论:“容易的事很难。”
第14章 计算机模型
1、建模的意义
科学家们说是在研究自然,但实际上他们做的大部分事情都是在对自然进行建模,并对所建立的模型进行研究。
理想模型有许多用途:研究一些复杂现象背后的一般机制(例如,冯·诺依曼研究自复制的逻辑);证明解释某种现象的机制是不是合理(例如,种群数量的动力学);研究简单模型在变化后的效应(例如,研究遗传算法的变异率或逻辑斯蒂映射的控制参数R变化所带来的影响);或者更普遍是作为哲学家丹尼特(Daniel Dennett)所谓的“直觉泵192(intuition pump)”——用来引导对复杂现象进行理解的思维实验或计算机仿真。
建模的艺术就是去除实在中与问题无关的部分,建模者和使用者都面临一定的风险。建模者有可能会遗漏至关重要的因素;使用者则有可能无视模型只是概略性的,意在揭示某种可能性,而太过生硬地理解和使用实验或计算的具体结果样本。
2、计算机仿真
(1)介绍
在理论科学和实验科学之外又产生了一个新的门类:计算机仿真
。
计算机模型也必须是可重复的——也就是说,其他人重新构造所提出的模型要能得到同样的结果。阿克塞尔罗德就极力拥护这种观点,他写道:“可重复性是科学积累的基石”。
(2)应用
① 囚徒困境
这就是囚徒困境悖论—用政治学家阿克塞尔罗德(Roert Axelrod)的话说,“每个人都追求自利,使得所有人的利益都受损。“
但本质上自私的个体中是怎么产生出合作的。这不仅仅是个科学问题,也是政治问题。
囚徒困境及其变体作为理想模型体现了合作问题的本质。
第四部分 网络
第15章 网络科学 & # 第16章 真实世界中的网络
1、网络科学与网络思维
(1)网络科学的诞生
在这项著名的实验中,米尔格兰姆发现,在送达的信件中,从发信人平均经过5个熟人就送到了收信人。这个发现后来广为人知,被称为“六度分隔
(six degrees of separation)”。
过去十年中,这些网络的问题吸引了无数复杂系统研究者,从而产生了所谓的“网络新科学”。
(2)网络科学无处不在
许多自然、技术和文化现象经常被描述为网络,航线图就是一个明显的例子。大脑是神经元通过突触连接起来的巨大网络。细胞中的遗传活动是受由基因通过调节蛋白质连接起来的复杂网络控制。社会则是由各种各样的关系连接起来的人(或组织)组成的网络。万维网则更是现代社会的典型网络。在国家安全领域,识别和分析可能的“恐怖分子网络”是很重要的工作。直到不久前,网络科学都不被视为一个研究领域。数学家研究抽象网络结构的学科被称为“图论”。
(3)网络思维的重要性
也许最重要的是,这些科学家逐渐意识到,各种高度复杂的网络系统对人类生活和福祉的影响越来越大,迫切需要有新的思想和方法——真正全新的思考方式——来帮助理解它们。巴拉巴西将这种新方法称为“网络思维”。
网络思维意味着关注的不是事物本身,而是事物之间的关系。
(4)网络科学的重要性
网络科学的目的就是提炼出这些共性,并以它们为基础,用共同的语言来刻画各种不同的网络。同时网络科学家也希望能理解自然界中的网络是如何发展而来的,以及它们是如何随时间变化的。对网络的科学理解不仅会改变我们对各种自然和社会系统的理解,同时也会帮助我们更好地规划和更有效地利用复杂网络,包括更好的网络搜索和万维网路由算法,控制疾病传播和有组织犯罪,以及保护生态环境。
2、网络概念
(1)节点和边
用最简单的话说,网络是由边连接在一起的节点组成的集合。节点对应网络中的个体(例如神经元、网站、人),边则是个体之间的关联(例如突触、网页超链接、社会关系)。
这表明大部分人的朋友相对较少,极少的人具有很多很多朋友。类似的,在万维网上,少数网站极受欢迎(很多网站都有链接指向这些网站),例如有超过 7500 万个链接指向谷歌,而大部分网站则几乎没什么知名度——例如只有 123 个链接指向我自己的网站(其中大部分可能都来自搜索引擎)。高连接度的节点被称为中心节点
(hub),它们是网络中主要的信息或行为的传递渠道。
(2)网络类型
其中有两类模型被深入地进行了研究,分别是小世界网络(small-woiid networks)和无尺度网络(scale-free networks)。
① 小世界网络
1、介绍:
在这种网络中大部份的节点彼此并不相连,但绝大部份节点之间经过少数几步就可到达。
2、特点:
- 在日常生活中,有时你会发现,某些你觉得与你隔得很“遥远”的人,其实与你“很近”。
- 小世界网络也经常表现出高度的集群性。
3、例子
电影演员网络。
神经学家已经完整绘制了线虫的脑神经网络,并发现线虫的脑是小世界网络。最近,神经学家又绘制出了猫、恒河猴等动物甚至人类的一些高级功能脑区的连接结构,并且发现这些网络同样具有小世界特性。为什么进化喜欢具有小世界特性的大脑网络呢?弹性可能是一个重要原因:我们知道神经元会不断死去,但幸运的是,大脑仍然能正常运转。大脑的中心节点则是另一回事:比如海马区(负责短时记忆的网络的中心),如果受到击打或是疾病侵袭,后果将会是毁灭性的。
② 无尺度网络
1、介绍
其典型特征是在网络中的大部分节点只和很少节点连接,而有极少的节点与非常多的节点连接。
它一种更类似现实世界网络的小世界网络。
2、特点
总而言之,无尺度网络对节点的随机删除具有稳健性,但如果中心节点失效或是受到攻击就会非常脆弱。
网络在增长时,连接度高的节点比连接度低的节点更有可能得到新连接。直观上很明显。朋友越多,就越有可能认识新朋友。网页的入度越高,就越容易被找到,因此也更有可能得到新的入连接。换句话说就是富者越富。
3、例子
20世纪90年代,谷歌改变了这一切。谷歌提出了一种革命性的思想,用一种称为“网页排名(PageRank)”的方法对网页搜索结果进行排序。其中的思想是网页的重要性(和可能的相关性)与指向这个网页的链接数量(入连接的数量)有关。
同典型的社会网络一样,大部分网页为低连接度(入连接相对较少),极少部分网页具有高连接度。
3、网络传播
(1)介绍
事实上,理解信息在网络中的传播方式是网络科学现在面临的最重要的问题。到目前为止我们讨论的都只是网络的结构一例如,静态的度分布—还没有讨论网络中信息传播的动态行为。
(2)副作用
一种更普遍的网络传播现象——“连锁失效
( cascading failure)”。连锁失效现象的存在促使人们关注网络中的信息传播以及其如何受网络结构影响。网络中的连锁失效是这样一个过程:假设网络中每个节点都负责执行某项工作(例如传输电力)。如果某个节点失效了,它的工作就会转移到其他节点。这有可能会让其他节点负荷过重从而失效,又将它们的工作传递到其他还未失效的节点,这样不断发展。结果是失效如同加速的多米诺骨牌一样扩散,从而让整个网络崩溃。
随着我们的社会越来越依赖计算机网络、网络投票机、导弹防御系统、电子银行,等等,连锁失效的情况也越来越常见,威胁也越来越大。正如研究这种系统的专家安东诺普洛斯( Andreas Antonopoulos)指出的,“威胁来自复杂性本身”。因此!对连锁失效及其应对策略的总体研究现在是网络科学最活跃的研究领域。两个影响最大的理论分别是自组织临界性( Self- Organized Criticality, SOC)和高容错性( Highly Optimized Tolerance, HOT)。 SOC 和 HOT 理论也提出了不同于偏好附连的机制解释无尺度网络的产生。这两个理论各自提出了一组进化和工程系统连锁失效的普适机制。
第17章 比例之谜
1、比例
(1)什么是比例
比例描述的是一个属性改变时,其他相关的属性会如何改变。
(2)生物学的比例
研究的是生物的大小变化时其他属性会如何变化。
2、比例之谜
(1)以代谢率为例 - 代谢比例理论
① 起源
人们很早就发现,相对于体重大小来说,较小动物的代谢率比较大的动物更快。(生物的代谢率可以定义为细胞将营养转化为能量的速率。)
仓鼠产生的热量也应该是老鼠的8倍。但是散热要通过表皮,而仓鼠的表皮面积只是老鼠的4倍。这是因为动物的表皮面积并不正比于动物的体重(同样也不正比于体积)。
他提出代谢率同体重的2/3次幂呈比例。这就是所谓的“表皮猜想“。
② 代谢比例理论
这个幂律关系后来被克莱伯修正,即其基础代谢率水平与体重的 3/ 4 次幂成正比,现在被称为克莱伯定律
( Kleiber' s law)。
”次幂“就是我们常说的”次方“。
这个理论又叫做代谢比例理论
(Metabolic scaling theory,或简单代谢理论),结合了生物学和物理学,也在这两个领域引起了很大的轰动和争议。
③ 适用范围
最近有研究发现, 3/ 4 次幂比例不仅对哺乳动物和鸟类成立,对鱼类、植物,甚至单细胞生物也成立。克莱伯定律是建立在对代谢率和体重的测量的基础上,克莱伯没有解释这个定律为什么成立。结果克莱伯定律一直困扰着生物学家们。生命系统的重量范围很大,细菌不到万亿分之一克,鲸鱼则可能超过 10 万千克。这个规律不仅违背简单的几何推理,适用范围也大得惊人,涵盖各种大小的生物,也适用于各种生物类型和生境。
再来看看微观领域,研究组推测,他们的理论可以应用到细胞层面, 3/ 4 指数代谢比例既可以计算单细胞生物的代谢律,也适用于细胞内部分子层面的类代谢运输过程!甚至包括像线粒体这样的细胞器内部的类代谢过程。研究组还认为这个理论可以解释生物 DNA 的变化速率。
在大的方面,代谢比例理论及其扩展已经被应用到整个生态系统。
④ 地位
有人认为代谢比例理论“有统一整个生物学的潜力”
广义代谢理论的涌现对于生物学的重要性将类似于遗传理论。”
(2)幂律关系
① 介绍
后来生物学家们发现了大量的幂律关系,都是分母为 4 的分数指数。例如心率、生命期、妊娠期以及睡眠时间等。
因此,这些关系也被称为四分幂比例律
( quarter- power scaling laws)。
② 地位
幂律却在很多现象中都有被发现,以至于一些科学家说它“比‘正态’还要正态”。
(3)产生原因
到底是生物的哪种共性导致了这个简单而优雅的规律呢?
科学家们对自然界中钟形曲线分布的成因有很好的理解,但幂律在一定程度上却还是个谜。
有一种结论是,分形结构是产生幂律分布的一种方式;如果你发现某种量(例如代谢率)遵循幂律分布,你就可以猜想这是某种自相似或分形系统导致的。
圆这样的二维对象有周长和面积。如果是三维,就分别对应表面积和体积。如果是四维,表面积和体积则分别对应于“表面”体积和超体积——这个量很难想象,因为我们天生擅长思考三维,不擅长思考四维。表面积与体积呈指数为2/3的比例关系,通过类似的论证,就可以知道四维的表面体积与超体积呈指数为3/4的比例关系。
“虽然生物是三维的,内部的生理结构和运作却表现为四维……分形几何给了生命一个额外的维度。”
(4)拓展 - 齐普夫定律
① 介绍
如果把一篇较长文章中每个词出现的频次统计起来,按照高频词在前、低频词在后的递减顺序排列,并用自然数给这些词编上等级序号。
齐普夫用这种方法分析了大量文本(没有借助计算机),他发现,对于大规模文本,词频大致正比于其排名的倒数(也就是 1/ 排名)。这是指数为- 1 的幂律。排名第二的词的频数大约是排第一的词的一半,第三大约是 1/ 3,等等。这个关系现在被称为齐普夫定律
( Zipf' s law),这可能是最著名的幂律。
通俗点就是词频分布定律。
② 原因
对齐普夫定律有各种解释,齐普夫自己提出,一方面,人们一般都遵循“最省力原则( Principle of Least Effort)”:一旦用到了某个词,对类似的意思再用这个词就比换其他词要省力。另一方面,人们希望语言没有歧义,这又需要用不同的词来表示相似却又不完全一样的意思。齐普夫从数学上证明了这两种倾向在一起会产生观察到的幂律分布。
所以齐普夫定律也叫
省力法则
。
结果,几乎与此同时,让所有人都大跌眼镜,心理学家乔治·米勒(George Miller)使用简单的概率论证明,让猴子在键盘上随意敲击,如果(偶然)敲到了空格键就断词,这样得出的文本同样遵循齐普夫定律。
我觉得这个跟键盘的排布有关吧。
第18章 进化,复杂化
1、进化是如何创造出复杂性的
(1)基因的结构并不简单
基因并不像“一根绳子上串着的豆子”。我在中学学生物时,基因和染色体被解释比喻成一根绳子上串着的豆子(我记得我们还用塑料豆子组装过模型)。
后来发现基因并不是相互分开的:
- 有些基因相互重叠——也就是说,它们各自编码不同的蛋白质(即单个基因可以编码多个蛋白质。以前一直以为基因和蛋白质是一对一的关系。),但是共用 DNA 核甘酸。
- 有些基因甚至完全包含在其他基因内部。
(2)跳跃基因
基因可以在染色体上移动,甚至移动到其他染色体。你也许听说过“跳跃基因
( jumpinggenes),”实际上基因是可以移动的,染色体的组成也会被重新排列。这在任何细胞中都有可能发生,包括精子和卵子,也就是说可以遗传。这样产生的变异率比 DNA 复制错误导致的变异率要高得多。
一些科学家提出,近亲甚至同卵双胞胎之间的差别可能就是这种“可动遗传因子( mobile genetic element)”造成的。还有人提出,跳跃基因是导致生命多样性的机制之一
(3)基因网络的效应
生物系统的复杂性主要来自基因网络,而不是单个基因独立作用的简单加总。
有种非线性系统的感觉。
(4)表观遗传学
即使基因的DNA序列不发生变化,基因的功能也会发生可遗传的变化。最近兴起的表观遗传学(epigenetics)研究的就是这种变化。一个例子就是所谓的DNA甲基化(methylation)。
(5)非编码RNA的调控 - 基因开关
2003年,人类基因组计划发布了完整的人类基因组——人类DNA的全部序列。虽然这个计划得到了大量新发现,但还是没有达到许多人的预期。
最近发现,在大部分生物中,DNA转录为RNA之后很大部分最终都没有被译码成蛋白质。这些所谓的非编码RNA对基因和细胞的功能具有调控作用,这些以前都认为是由蛋白质单独完成的。非编码RNA的作用是目前遗传学中一个非常活跃的研究领域。
物种形态多样性的主要来源不是基因,而是打开和关闭基因的基因开关。这些开关是不编码蛋白质的DNA序列,通常长度为几百个碱基对。它们以前被认为是所谓的“垃圾基因”的一部分,但现在发现有基因调控的作用。
根据进化发育生物学
,生物的多样性主要来自开关而不是基因的进化。人类之所以与其他差别极大的物种能有如此多相同的基因,是因为虽然基因是一样的,基因开关的序列构成却已进化得不一样了。进化的主要力量正是这种—长期以来一直被视为“垃圾”的 DNA 的——变化,而不是新基因的出现。
2、考夫曼的研究
略
第五部分 尾声
第19章 复杂性科学的过去和未来
1、发挥什么作用
近年来复杂性科学的主题和结果已经触及几乎所有科学领域,而且像生物学和社会学这样的研究领域已经被这些思想深深改变了。不仅如此,一位学者这样说道:“我认为复杂性科学的一些形式正在改变整个科学思想。”
2、现状
但现代复杂系统科学仍然没有统一成一个整体,而是松散的大杂烩。
3、期待如何改变
(1)大一统
统一·理论[unified theory,或大统一理论(Grand Unified Theory),缩写为GUT
,通常指物理学的一个目标:用一个理论统一宇宙中的基本力。弦论就是对GUT的尝试,
希望物理学能彻底理解基本力从而完结的想法是没有根基的。一个尺度上组分的相互作用会导致更大尺度上复杂的全局行为,而这种行为一般无法从个体组成的知识中演绎出来。”
而现在的状况是,没有单一的原理可以适用于所有复杂系统。
(2)等待卡诺
这个领域有个笑话,说我们是在“等待卡诺”。卡诺(Sadi Carnot)是19世纪初的一位物理学家,他提出了热力学的一些关键概念。与之类似,我们也在等待出现适当的概念和数学来描述我们在自然界看到的各种形式的复杂性。
要实现这个目标我们更需要一位牛顿式的人物。我们现在所面临的概念问题,就类似于微积分发明之前牛顿所面临的问题。在牛顿的传记中,科学作家格雷克( James Gleick)这样描述:“他受困于语言的混乱——有些词汇定义不清,有些词汇甚至还没有出现……牛顿相信,只要他能找到合适的词汇,他就能引领整个运动科学。……”通过发明微积分,牛顿最终创造了所需的词汇。借助于无穷小、微分、积分和极限等概念,微积分为严格描述变化和运动提供了数学语言。