“从物理学角度看,生命这种物质运动形式,与其他的物质运动相比并没有更高的含义,从生命中你找不到新的物理规律,所以从我的角度看,一个人的死与一块冰的消融并没有本质的区别。”
刘慈欣《地球往事》
目录
- 前言
- 局域移动
- 聚集倾向
- 交通效率
- 跨区流动
- 相互影响
1. 前言
通过与某运营商合作,我们获得了北京十万用户的三十天内的移动和上网记录数据。下文对一天内的数据做若干简单分析。可以做的事情有很多,有待更多人加入研究团队,一起把这个线发展成长期研究的方向。
2. 局域移动
数据中一共有一万多基站。显然,基站更多地会被安放在人口密度较大的地区。因此从基站的分布也能看出北京人口的聚集情况。
人口的聚集不仅仅是居住地的聚集。大多数的日常移动轨迹都在一个小范围内[1]。以基站为节点,以用户流动为链边构建网络,对这个网络的最大联通集团进行k clique communities聚类[2]可以得到两百多个小的社区,其中最大的10个社区如图所示。聚集得到的社区反映了北京居民日常移动的局域性。
3. 聚集倾向
我们将从“源”到基站的平均加权步长称为“流长度”,使用这个指标来刻画移动网络。我们发现除了一大批流长度为1的基站外,流距离基本上呈正态分布。同时基站的流距离与流量正相关(Pearson r = 0.23, p-value < 0.01),说明人群在聚集而不是耗散。从“源”到“汇”的“流长度”是5.7,意味着平均来说一天之内用户要经过六个基站。
从上图中也能看出用户从四面八方聚集到城中心。
4. 交通效率
除了流长度外,我们也可以在移动网络上计算任意一对节点之间的流距离。而后我们对于每一个节点i,只保留outbound流距离最大的节点j,这样我们就构建了一个最大生成树。这个树中入度比较高的点就是当地交通最有待改善的点:大量用户从不同的地方来到这里,但却又需要经过多次换乘。类似的方法还可用于分析交通最有效率的地区。
我们发现,基站之间流距离与地理距离正相关(Pearson r = 0.02, p-value < 0.01)。如果交通网络是一个球面上均匀分布的二维网格,那么流距离与地理距离之间应该是系数为1的线性关系。因此实际交通系统是一个比均匀分布的交通系统更高效的系统。然而即使对于这样一个高效系统,如上文分析,仍然有许多改善的余地。
5. 跨区流动
我们发现,用户的移动速度是对数正态分布。大多数人移动比较慢,少数人移动较快。人与人之间的移动速度差别是几何级的。从地图上可以看出,区域之间的移动比较快,区域内的移动比较慢。
6. 相互影响
通过用户的上网行为,我们可以构建用户网络。如果用户i和用户j先后上了同一个网站,我们计算i上传的信息流量和j下载的信息流量,将两者加总作为链边权重,视为用户之间的互动强度。在这个网络上,对用户计算流长度,可以看出用户在信息交流中是主动还是被动的,是影响别人还是被别人影响。
我们发现,用户的移动速度与在信息传递链中的位置负相关(Pearson r = -0.01, p-value = 0.02)。这可能是由于移动速度较快的用户社会经济地位较高,在社会交往中也更加主动。