这节课是集智学园AIS第十期课程:《生长与设计——复杂性视角下的智慧城市》
城市是一个典型的复杂系统,人类创造了城市,多种多样的人群交互活动塑造者城市的形态,也同时受到城市自身发展规律的影响,我们虽然置身城市中,却难以断言我们完全理解城市。城市当中川流不息的人群、错综复杂的道路、流光溢彩的灯火,它们之间是否会有隐藏着的内在关联?动态的车流和静态的路网如何共同影响城市的效率?大数据能为我们理解城市提供怎样的视角和助力?人工智能又可能会怎样改变我们的城市空间?
本次课程会涉及对于城市起源及本质的思考,多源异构数据对于城市研究的助力,尤其是手机数据、众包数据、遥感数据对于城市研究的影响。从关联和交互的系统视角出发,对于城市交通效率、城市动力学进行剖析,最后会深入到复杂城市现象背后的基本原理,揭示影响城市演化的简单规律。
张江老师在引入部分介绍了《规模》这本书,讨论了三大主题:(1)生命系统;(2)城市系统;(3)公司系统。其中城市系统是相当独特的一个系统,城市是永生的不会死亡的,与生命和公司具有本质不同。按照生物学统计,所有物种一生心跳次数是1.5亿次,是个定数,但人类却偏离了这个定数,翻倍变成3亿次。这是因为人类已经成为城市的人,城市使得科技的力量加持在人类的身上,从而偏离了原本的轨迹。
接下来进入李睿琪老师的课程部分。
最早的城市出现在公元前6000前,相比于整个人类的历史,城市的历史是非常短暂的。近百年来,全球范围内城市化进程非常非常快:2008年前后,全球已经有超过半数的人口生活在城市中;发达国家这一比例更高,且城市化进程发展得更早;预计到2050年,全球约75%的人口都会生活在城市中。
城市既是文明发展、科技进步的引擎,但同时,快速的城市化也带来了很多的城市问题/“城市病”:环境恶化、交通拥堵、流行病爆发、房地产泡沫……
城市病由来已久:早在1898年霍华德在《明日的田园城市》已经在探索解决城市病问题,希望通过麻雀虽小五脏俱全的小社区/小功能体替代掉大城市,以此避免大城市导致的各类问题。但小功能体也会有小功能体的问题,并不是“城市病”的完美解决方案。
发展的问题只能依靠发展来解决。城市化既是问题的来源,同时也是解决方案。研究城市化问题时,有一个重要的指标——跨城市的宏观标度率。
γ>1:超线性增长,意味着人口增加一倍,该指标的增长比一倍还多,即该指标的增长比人口的增长快。如GDP、收入、专利数(所以大城市工资收入越高,GDP越大),也包括犯罪。
γ<1:亚显性增长,意味着人口增加一倍,该指标的增长比一倍要少,即该指标的增长比人口的增长慢。如道路总长度、建成区面积(更少的人均占地面积)。
关于宏观标度率背后可能的规律/原因的研究有很多。微观层面有学者提出网络的层级性[science 2013];宏观层面有学者提出要考虑经济复杂性与文化因素[Nature Human Behavior,2016]。那是否有沟通宏观层面和微观层面的理论呢?这是李睿琪老师尝试要去解答的问题。
一、城市的起源和生长过程
城市是一个典型的复杂系统,人类创造了城市,多种多样的人群交互活动塑造者城市的形态,也同时受到城市自身发展规律的影响,我们虽然置身城市中,却难以断言我们完全理解城市。城市当中川流不息的人群、错综复杂的道路、流光溢彩的灯火,它们之间是否会有隐藏着的内在关联?动态的车流和静态的路网如何共同影响城市的效率?大数据能为我们理解城市提供怎样的视角和助力?人工智能又可能会怎样改变我们的城市空间?
城市的本质:人类交互活动的外化形式
城市的本质是什么?城市区别于其他一切事物的最核心的内涵是什么呢?城市的外在特征不能作为定义城市的标准,因为它不停地变化。例如,在古代,城市必须要有城墙,这意味着这座城市具有一定的防御功能,“筑城以卫君,造郭以守民”。;在工业时代,可能工厂会取代城墙成为城市的必要特征,而在今天,我们公认的城市又都存在着大量的路网和种种基础设施,这些外在特征在不停地变化。那么在变化的特征背后,城市核心不变的内涵又是什么呢?
李睿琪老师认为,城市或许是在物理空间上,人口与人类交互活动聚集的外化形式。这体现为:
- 城市承载了人类活动,同时城市也被人类活动所塑造;
- 城市因人而生、由人构成,也为人而存;
- 虽然具体的城市会有兴衰甚至消亡,比如古巴比伦。真正不灭长存的是人的需求以及因此而来的人类交互活动。因此抽象意义的城市一直都有其存在的必要性,外在的城市特征会不断变化,大量的城市因此而持续繁荣。
从人类交互的角度研究城市问题就成了李睿琪老师等人的切入点,研究如何更好地感知城市中人群的动力学问题。
二、城市感知
要想客观的反映、分析人类的交互行为,从数据挖掘与分析的角度入手是比较好的。更进一步,寻找客观、遍在、易获取而且能反映人类行为的数据并进行准确的分析就成了重要问题。
1. 手机数据——精确的个人行动记录者
在手机尚未被普及之前,科学家们只能通过其他的方法来研究人类的移动活动。例如在2006年,科学家们创造性的借助了50万张一美元钞票的流通来近似模拟人类的移动,因为钞票的流动移动是由人的移动与消费所导致,最终科学家们发现人类的出行距离符合幂律形式。
随着手机普及,手机数据成为了一种便捷的、能客观反映人类行为的数据。这是因为通信公司会对用户的通信数据进行记录,这些记录包括用户id、用户活动的位置、时间等等,这些数据经过脱敏处理之后即可被用于科研分析。
手机数据的优势在于,其时空精度都相对较高,空间精度可以精确到200米左右,而且手机普及率和使用频率都非常高,即使在欠发达国家如非洲,手机的普及率也能达到近90%,此外此群使用偏差Bias更小且为被动采集数据,相对媒体数据更加客观。但同时,手机数据也存在着一些问题,例如数据噪声较多,而且缺乏地点信息等。总体而言,手机作为如今我们每个人形影不离的工具,其数据仍然可以很好地代表人们的行为信息。
2. 卫星遥感数据——繁荣的尺度
越繁华的城市,夜景就越明亮绚丽,从飞机上看夜晚的城市,我们不禁感慨,城市就像是一个生命体一样!道路网络就像生命体的血管,而车流就像血管中的血液。城市越繁华,夜晚也越热闹,这个生命体看起来也越有活力。当然,这一切都被卫星的夜光遥感数据记录了下来。
研究者们发现,夜光数据跟GDP水平、贫穷程度密切相关。研究者通过夜光数据与问卷数据结合的方式发现,夜光数据能对该地区人口的收入、资产情况进行比较好的预测。因此,夜光影像数据可以作为大尺度上衡量一个城市的经济情况的可靠数据。
3. Open Street Map——人人可用的开放地图
2004年在英国大家构建了一种众包的形式——开放街道地图(Open Street Map,以下简称OSM),一个线上地图协作计划,目标是创造一个内容自由且能让所有人编辑的世界地图,地图实时更新,永久免费。OSM的理念是打破大公司对地图数据的垄断,让地图数据为每个人所有,目前,OSM已经有220万注册用户,比较精确地描述了我们的现实世界,而且其它是开源的,可以为每个人所下载和使用。OSM 可以为我们提供比较精确的城市路网数据,而这对研究城市交通以及城市中的人群流动都具有很重要的意义。
4. 手机数据处理的算法
对于收集来的手机数据,需要经过一些处理和去噪后才能被用于分析研究,具体进行数据处理的算法模型有以下几个:
(1)噪声过滤
处理大量数据时,我们希望能够用尽量少的计算,做到尽量精确的结果。因此对于一些噪声数据,要将其过滤掉。
(2)时序聚类
为了得出更加精确的空间上的信息,需要用到时序聚类和空间聚类。时序聚类是将时间连续且在空间上靠近的记录点聚集为一个停留点。如用户在某处漫步等
(3)空间聚类
时序聚类后,通过R-tree可以将不同时间点的所有时序聚类得到的留点stay point进行空间上的聚类,就可以将地点更为准确地抓取出来。
5. 基于数据和算法做地点探测及验证
李睿琪等研究者对手机数据进行了大量的深入挖掘,例如用手机数据来做地点探测及验证。他们做了两个假设:(1)家的位置是每晚10pm到第二天上午6am最常访问的地点;(2)工作地点是工作日中累积通勤长度最远的地点。当然,问卷调查支持这样的假设。基于假设,接着就来验证探测出来的地点是否是比较准确的。
通过对手机数据的分析,研究者获取到用户到达某地点的时间以及在该地点停留时间的分布情况,如图:
在上图中,横坐标表示用户到达某地的时刻,纵坐标表示在该地停留的时长,其中图1表示家,图2则表示工作地点,可以看到,人们不论什么时候回家,都会在第二天早上约8:00离开家,同样,无论到达工作地点的时间如何,人们通常会在最晚22:00离开(从倾斜的直线中看出)。
为了确保数据挖掘结果的有效性,李睿琪等人还使用了人口普查数据进行检验工作:用手机数据估计人口数量和普查数据人口数量进行对比验证,他们发现算法所估计的人口数量——无论是总人口数还是工作人口数,都和相应的普查人口数量比较接近,这表示他们工作具有很高的可信度。
地点标识出来 之后,接下来就可以对人的出行活动进行标记,比如将人的出行行为标记为以下几类:(1)Home-based-Work从家到工作地的通勤行为;(2)Home-based-Other从家到商场的消费行为或者其他从家出发的行为;(3)Non-Home-based。
有了每一个人的出行行为之后,就可以得出整个城市范围内的出发地-目的地OD矩阵。并且可以得出各个维度的OD矩阵,如按出行目的划分的HBW、HBO、NHB;还有分时段的,如每小时的OD矩阵。据此就可以得出人们的出行时间估计和城市的交通流量分配情况,与高德地图进行对比验证也是比较准确的。
6. 从地点探测延申出去的一些应用
(1)城市人口权重交通效率评估——探究动态的车流和静态的路网如何共同影响城市的效率
过去对于交通效率的常用指标主要有两种。
第一种是关注道路网络拓扑&空间特征,如节点对之间路径长度的倒数或者空间上的导航因子来做估计。这种方法只考虑了道路网络情况,却没有考虑城市中人动态的出行需求变化和人的出行行为。
第二种从出行需要出发,如过剩通勤指标——实际平均通勤时间(或距离)与理论上最小的通勤时间(或距离)的差值。理论上最小通勤时间是0,即所有人都住在工作的地方,但实际上是很难达到的。这种方法只关注了出行需求,而没有考虑实际道路网络的情况。
李睿琪老师和他的团队所做的,就是尝试将动态的出行情况和静态的道路网络特性结合起来,定义了一个指标:人口权重效率PWE。通过这一指标对每一条路进行交通效率的评估,从而得出整个城市的交通效率评估,识别城市内和城际间低效的一些路径,进而分析导致道路效率低下的原因,是被机场、高速公路阻隔需要绕行?还是人群密集导致拥堵?
通过人口权重效率指标,也可以对平均通勤时间的预估做优化,PWE指标要比过剩通勤指标有更高的相关性,可以做更为精细的估计。
(2)居民动态空气污染物接触指数评估——个性化的空气质量报告
现有的空气质量报告都是基于固有空间位置/基站的历史数据来预测,都是基于空间因素,而没有考虑人的流动情况。如果将人的全天活动情况、在每个地方的停留时间以及空气接触情况考虑进去,就可以对空气质量进行更为个性化的估计。
(3)城市系统上的流行病传播动力学——二维地理空间到高维流行的变幻
流行病传播本身是一个非常复杂的动力学现象。数百年前流行病的传播速度大约为300-600km/年,且传播模式为简单的圆形的扩散过程,比较容易预测;但现在流行病传播速度大大加快,通常可在6个月内传遍全球,而且传播路径更为复杂,更加难以预测。
这种现象的一大原因就是现在的交通网络已经将二维的地理空间扭曲成一个高维流行。比如地铁、高铁、航空连接了世界各地,拉近了城市与城市之间的距离。比如北京到上海,可能就比北京到张家口某个村的距离更近,因为人从北京去到上海可能更方便更快,去到张家口的某个山村反而更“远”。
于是李睿琪老师在做流行病传播动力学研究时,在复合种群模型的基础上应用了SIR动力学过程,将人类移动情况和城市中具体的人类交互因素(交互强度等,越是大城市,人之间的交互是越强的)两者都考虑进行,得出基于流量定义的城市间距离。
三、揭秘城市元素:空间规则与增长机制
关于城市增长机制的研究由来已久。Stanley等人在1995年的时候就用关联渗流的方法研究城市扩张的机制,关联渗流方法相较于DLA模型能够更真实地复现城市增长的过程,但它无法重现出城市中的区域人口密度分布,其仍然是一个二维生长模型。而城市人口密度分布使用指数分布还是幂律分布?这个问题在过去数十年一直争论不断。
李睿琪老师在研究中发现,城市中的人口是处于不停变化中的,一天不同时段在不同区域人口的动态分布时刻在变化。从这个角度来看,居住人口是没有任何意义的,从人类动态交互/动态活跃人口的角度切入描述,才能更准确地把握城市的概念,了解到某一时刻有多少人来过这里,与城市发生了交互行为。
研究中同时发现,城市道路活跃人口和社会经济交互数量在空间维度上也有累计的关系,这些变量都符合幂律形式的特征,互相之间应该会存在某种关系。具体关系是什么样的呢?李睿琪老师和他的团队试图通过构建城市演化模型来解释。
1. 城市为什么会生长?人为什么会来到城市?
城市生长背后的原因很大程度上在于人口从乡村到城市的迁移,这一迁移过程是十分迅速的,2008年全球超过半数的人口生活在城市当中,在发达国家这一比例要更高;而预计到2050年,全球约75%的人口都会生活在城市中,这意味着从现在起,几乎每周全球都有数百万的人口迁移到城市或在城市中出生。那么,人们为什么要疯狂地往城市迁移呢?
其一是当地的自然资源与环境,例如旧金山北部的金矿在早年就吸引了大批的淘金者;
其二则可能来源于城市的社会交互因素:对安全、经济与社交活动的需求。1920年左右,有研究者在美国12个州进行了一次问卷调查,询问人们迁移到城市之中的原因,得到的结果如下:
- 为了更好的经济机会(占36%)
- 更好的公共学校(占27%)
- 更稳定且舒适的退休生活(占16%)
- 更加充实的社会生活(占16%)
- 没有能力和条件继续从事农业工作的或者家庭原因而来到城市(占5%)
有趣的是,尽管100年过去了,人们迁移到城市的原因几乎没有什么不同。城市中的日常活动无外乎工作、家庭、教抚子女、休闲娱乐、体育活动、购物、社区活动、宗教活动等等,从抽象的角度来讲,这些活动都是人与人之间的交互或协作。许多活动的展开也取决于人群的聚集规模,例如:如果没有一定人口的支持,大型聚会基本无法展开、许多小众的市场也无法存在。
随着越来越多的人口迁入,城市有了越来越完善的教育环境、娱乐环境、社区环境等,这都可以被抽象为让交互环境变得更友好,而更友好的交互环境会进一步增加城市的吸引力,使得更多的人迁移到城市中来,形成一个正向反馈的机制。
李睿琪博士等人构建的城市生长与演化模型正是基于这样的假设:城市的生长与人们之间的交互密切相关,人们的交互越多,城市就越有吸引力。从这样的角度,我们可以重新看待城市的生长与演化过程,并且从中发现了许多有趣的现象。
2. 空间吸引与匹配生长模型
在城市的生长过程中,不同的地区对人的吸引力是不同的,假设与人的交互机会越多的地方对人的吸引力越大,那么人口密度越高的地方其交互也越多,我们就可以从人口密度的角度来定义空间吸引力了。如下图所示:
图中的 C 为常数,表示自然禀赋吸引力,而ρ(x,y)表示在x、y坐标处的人口密度。假设某点的空间吸引正比于 C 与 ρ(x,y) 的和,因此在该点的空间吸引力就可以被定义为如下公式:
更进一步的,我们可以定义匹配生长过程(Matching Growth),匹配生长过程的假设同样来自于现实情况:如果一个社区距离已有社区的地理位置太遥远,这个社区就会面临诸多不利因素而难以生存(例如在古代,离群索居的小群体存在着生存危险,而在现代,孤独的社区又会面临难以于其他社区交流和交易而带来的巨大成本)。
在匹配生长模型中,我们不断在二维空间中的随机位置加入新节点(代表城市中的社区),但只有当新节点与已有节点距离足够近时,新节点才能够存活。因为开始时节点较少,新的节点难以留存,但随着已经存活的节点数的增加,新的节点存活的概率将大大提高,城市的扩张也将加速。因此,匹配生长模型不但能够模拟城市的空间扩张方式,还能从时间的角度还原城市的加速扩张过程。
3. 道路生成机制——与社会经济交互规则
为了保证模型的简单性,李睿琪博士采用了泰森多边形(由一组由任意两个邻近点连成线段的垂直平分线组成的连续多边形,常用于作面积区域的划分)划分的方法进行路网的生成,这种方法生成的路网在统计特性上与真实的路网十分接近,而在形态上也非常相似。
进一步分析路网的长度与人口密度的关系,可以发现:在单位区域内,节点之间的路段的平均长度与人口密度之间呈 -1/2次幂的关系,而路网的总长度则与人口密度呈 1/2次幂的关系——幂律法则再次得以体现,如果用l表示路网总长度,用ρ表示人口密度,即可得到:
有了城市中的社区与路网,就可以进一步定义城市中的经济产出与交互了,此处模型有两个假设:①社会经济产出正比于交互数量;②所有的交互则都会发生在路上——这种假设的提出也是来自于实际情况的抽象:在城市中,大量的写字楼、超市、工厂等是社会价值产出的核心,而他们很多都是建在路边的。由于在前文中,我们已经推演出路网的总长度与人口密度呈1/2次幂的关系,而由此经济产出与交互的假设,可以进一步推算,每一个区域的经济产出值将正比于人口密度与道路总长度的乘积,即正比于人口密度的3/2次方,公式如下:
此公式中,g代表经济产出量,ρ代表该区域的人口密度,l代表该区域的道路长度。这就使得我们可以用活跃人口密度来更好地估计每一个区域的社会经济产出量。如图所示,蓝色的点代表人口分布,灰色的线条代表道路,而从黄到红的背景颜色就表示该区域社会经济产出的强度值:
4. 从模型到实证
有了前面提到的四个简单的规则,城市的生长与演化模型就可以被建立起来了,进一步,有了可以代表现实世界的模型,科学家就可以通过对模型的观察、模拟与理解来更深刻的感知我们现实世界中的城市——而问题就在于,城市生长演化模型是否能准确的代表现实世界呢?
(1)人口密度分布的验证
李睿琪老师等人从多个角度进行了验证,下图是模型生成的城市与伦敦实际的人口密度比较:
从人口密度方面,由于在某个时刻,城市的大小是确定的,因此可以推演出从城市的中心到边缘上的人口密度分布,可以看到在城市的核心区域,这个分布呈幂律形式(如下图左),同时可以观察到,模拟的数据很好地契合了北京和伦敦的人口密度分布实际数据(如下图右)。
(2)人口总量、道路总长与GDP的验证
有了人口密度分布的函数形式,也有了道路长度、GDP(即人口的总交互数量)与人口密度的数学关系,我们就可以通过在整个城市面积上对相关统计量进行积分,从而得到城市中的GDP总量、道路网总长度和人口总量,如下:
其中Pt(R)代表在城市半径为R的情况下,城市的人口总量。同理,Lt(R) 代表了城市道路的总长度,Gt(R)则代表了总的GDP数量。可以看到这三个方程含有共同的参数,因此有了其中的任何一种城市元素的分布,我们都可以推测出另外两种城市元素的空间分布。
北京和伦敦的实证数据结果表明,模型模拟产生的人口数量、道路总长度与 GDP 都能够很好的拟合实际效果。而对于更多的,难以获得直接数据的城市而言,李睿琪老师等人还创造性地使用夜光和城市路网长度进行了验证——这不但因为开源的夜光数据易于获取,还因为研究者们发现:不仅能从定性的角度观察,越发达的地方夜晚越灯火通明,而且从定量的角度描述,夜光数据在大尺度上也与该地区的GDP 直接相关。李睿琪老师等人经过对十个有代表性的城市的道路与夜光的相互验证,模型依然很好地通过了考验,如下表所示:
(3)幂律方程的验证
通过更深入分析,我们还可以得到不同城市指标量与城市规模之间的幂律方程,可以看到,经过推演得到的幂律方程中的标度指数同样在实证数据中得到了很好的验证。
5. 城市的生长画像——感知和模拟城市的演化
(1)使用城市生长演化模型进行千米级别的社会经济交互活动预测
使用本文展示的城市的生长与演化模型,我们可以对城市社会经济交互活动进行千米级别的预测,这在以前的城市研究中是无法做到的。如图:
在上图中,左边是实际的伦敦社会经济交互活动分布情况,而右边则是模型模拟的结果,可以看到模拟结果与实际结果是较为接近的。准确地预测城市的社会经济交互活动,是对城市最为直观的感知之一,这种方法让我们直接看到城市中不同区域的活跃程度的描述。
(2)北京不同区域的经济发展情况与房租之间的关系
模型还允许我们进行更多方面的研究和测试,李睿琪老师还以北京为例,进行了区域经济发展情况与房租情况的分析,如下图所示:
房租与经济发展在图的前半部分,也就是城市核心区域的确呈现了非常准确的相关关系,并且幂指数为 -0.3,与模型预测的 -0.25 非常接近。但同时,由于房租与众多其他因素相关,例如房屋年限、户型如何、是否是学区房等等,因此在特定距离的不同区域房价的波动也较大,而且房价相比于人口来说有其自身的特点,并不会像人口一样那样迅速地下降。不过,从整体上来说,模型够把握住一些重要的影响因素,在空间上做出较为准确的预测。
四、展望
最后的展望环节,李睿琪老师表示非常看好智能驾驶,认为智能驾驶普及后,出行可能变为一种服务。人们不需要拥有自己的私家车;北京成区234万平方米的停车面积(相当于2.4个紫禁城)会被释放出来做更好的城市规划和利用;多余的车会被挤出城市,路上的车流量会减少,交通压力得以缓解。
消失的不是道路上滚滚前行的车流,而是停在路边闲置的车。