我的智能手环用了将近一年,今天它上面唯一的一颗小按钮突然脱落,掉进地毯缝里再也找不到了。一年以前,我在我妈的怂恿下买了这个看起来没什么用处的“智能可穿戴”初代产品,它仅能计步以及通过监测身体的运动状况来计算出睡眠质量。我妈几十年来饱受失眠之苦,我不太理解为什么她热衷于让一个完全无助于睡眠的电子小玩意儿告诉她昨晚又没有睡好。不过,我还是给自己买了一个手环,而且出乎意料地戴了一年。买到手,在手机上装好App,很快我就体会到“量化自我”的乐趣。首先是最基本的计步器功能,让我头一次意识到自己每天的运动量是多么可怜,一天一万步的目标并不是看上去那样理所当然地能够达到。睡眠测量虽然不能让我睡得更好,但至少让我能够通过横向对比来检验早睡晚睡、是否做过运动、睡前有没有喝小酒对睡眠的深浅会有怎样的影响。配套的App偶尔会提示说:最近你的深睡眠时间比同年龄段的平均值少半小时呀,睡前放松一下吧,温馨体贴的三言两语说得人还有点小感动。
其实把自己的数据和他人来做比较,并不是什么新鲜的体验,在日常的电脑使用中,我们许多年前就早已被卷入一场席卷全国的大比拼之中——“你的开机时间为十五秒,超过了全国85%的电脑用户”,“您的显卡得分6345,全国排名28050位”。言下之意当然是要你使用这些报分软件来帮助优化系统、清理垃圾、下载驱动、从而提升你在全国范围的排名,并让你在胜利的喜悦中决定和这些软件生死相依。
然而,在大数据时代,“你的睡眠时间比别人少”,根本就是出于纯粹的体贴。手环和其他可穿戴,社交网络,搜索引擎,电商,他们不太需要通过激起你无意义的好胜心来稳定用户群。他们需要的是你的个人化信息,并基于这些信息来更有针对性地改进、研发、推送产品。数据一直都为商业决策提供参考。而大数据之大,按其定义,在于“所涉及的数据量规模巨大到无法通过人工,在合理时间内达到截取、管理、处理、并整理成为人类所能解读的信息”。(维基)简而言之,大数据是大过人工处理能力的数据。而这些大过人工处理能力的数据,又会偶尔展示出惊人的实用性。2010年世界杯的预测帝章鱼保罗,到了2014年已经被微软必应(Bing)取代,淘汰赛预测准确率高达94%。除了体育赛事,必应预测美国国会中期选举的准确率在95%以上;预测金球奖、奥斯卡得主83%以上;预测选秀节目“与星共舞” 95%,“美国偶像”90%。 所谓学习,就是通过过去的经验来处理未知的类似状况;而大数据和流行的“机器学习”就是在模拟人类这一貌似粗疏、实则管用的认知过程。比起过去以构建一个严密完备的“人工理性”逻辑系统来实现人工智能的尝试,基于大数据的机器学习或许更接近于充满意外和逻辑矛盾的人脑。尽管机器处理大数据的过程看起来像个黑箱,但人脑对于我们自己来说,也差不多是个黑箱。
几个月前,我戴的这个手环出了新款,带有更多的传感器,能测量更多的数据。自我测量、从而自我管理的理念在过去的一年多里已乘着井喷式的可穿戴设备风潮深入人心;但在大数据时代,“自我”已不是重点,“科技以人为本”的理念连同诺记已成明日黄花。我们不仅是最终的消费者,还不自觉地变成了最初的生产者。对我们个人而言用处不大的数据——一天行走的步数,去过的地方,浏览过的商品,搜索过的名字——一旦数以万亿计地集结起来,就不仅决定了在下一个网页我们会看到的广告,而且还可能决定下一代手机的主要功能,或者下一个可能突飞猛进的科研领域。大数据之大,既在于它超出人工的处理能力,又在于它超出人工的理解、调控能力。大部分人不知道该怎么用这些数据;但它们看起来又是如此地有用。所以害怕落后的生意人直觉的反应当然是,管他以后怎么用,先把数据收集起来再说。当然,他们还没好心到在知道怎么利用数据挣大钱之前,就先把收集数据的设备免费分发给大家。我们作为数据的提供者,或者各种长期试验的受试者,竟然还要交钱买一些用处不大的测试工具,这是让人有点忿忿不平的。所以自然就有龟毛的老外要伸张自己不提供数据的权利,“被遗忘权”,以捍卫个人的神圣隐私。
我对自己的隐私倒并不太关心,尽管随身设备收集私人信息的邪恶触手在前两天又向私处探出一大截——Apple下一代iOS9似乎可以记录性生活了。(收集此类数据的,前些年还有一个网站http://ijustmadelove.com那时候地理大数据比生理大数据要流行) 甚至还有人推出配套的众筹项目"Lovely",智能丁丁环,能够记录热量消耗、持续时间和抽插速度。有朝一日,少数派报告或成现实,机器能根据个人的生活行踪来断定此人是否即将要犯罪,我先买了丝袜又买了枪,回家可能就会被警察堵在家门口。但到那天来临之前,我不想为自己泄露给大数据的隐私过于担心。
我更担心的,首先一点,是大数据会让人在自己的生活里变得更愚蠢,更不讲道理。如果仔细想想大数据的使用方法,或者“机器学习”的机制,它其实不过就是休谟式的归纳法。太阳每天都照常升起,所以明天早上我们还会看到它。严格说来,没人会确定地知道,在今夜会不会有什么降维攻击级的意外会让太阳突然消失,可是大家依然按着“太阳明天照样升起”的假设安排生活。大数据的运用机制就是这样一个没有严格因果关系的归纳法。尽管有人工算法来规定机器处理数据的方式,但算法的优劣也是通过反复试错来提炼它的准确性的,而并不是提供一套类似于牛顿力学的严格法则。这大概类似于配中药,算法的作用就类似于一位老中医,能够根据每一味药的特性来揣测它们的疗效,通过调整计量得到一张最理想的药方,但并不提供背后的病理学解释。
这样的使用方式并不能称之为是科学的。在社会科学研究中,先要有一套含有因果关系的理论,然后才需要用数据来证明,或证否,这个因果关系是否存在。去年“双十一”之后,阿里的数据分析部门发现,购买内衣罩杯越大的女性购买能力越高。胸大和败家,两个因素有关联,但从数据上是无法区分到底有没有因果联系,或者哪个是原因,哪个是结果,一个完整的解释又是怎样的。类似“有趣”而无意义的“大数据”统计还有,江苏省避孕套年用量全国最高,湖北和西藏省最爱买字典。在大数据概念出现之前,大家或许会对这种纯粹的数据关联一笑了之;但在大数据的运用机制下,更多的广告可能就会被推送给胸更大的女性,情趣用品商户会瞄准江苏,而更多的字典可能会被调拨给湖北和西藏的库存。
数据关联本来就容易让人在两件事之间建立错误的因果关系,并产生自己的猜测一定很科学的幻觉;而大数据之“大”似乎可以为这样的幻觉保驾护航。不仅如此,大数据或许还会唤起一种人类对科技的崇拜,在天文数字一般繁琐庞杂的数据面前认清人力的界限,心生敬畏,并依赖机器的处理能力,把机器归纳出来的结果当作事实,甚至当作因果理论来接受。人对世界的理解,不仅基于经验,更是基于头脑对因果关系的想象和构造。从经验里能看到苹果落地,但无法得出万有引力的理论。一旦因为机器可以收集、处理人力不可能处理的海量经验,为之大能所折服而信赖它,并且无视归纳法的局限,人们将过上一种其实并不科学、仅仅是极端从众的生活。
大数据提供的处理结果不仅缺少科学的因果解释,而且还受制于数据收集的种类限制。现在阿里能通过内衣大小得出胸围与购买力的关系,却无法得出胸型种类与购买力的关系。乐观的导演们愿意构想,日新月异的信息攫取手段将会打破所有私人的屏障。随着技术和商业的发展,数据收集的触手有可能会直接探入我们的五脏六腑,了解我们的衣食住行、一举一动,阅读我们每一个细微的面部表情和肢体语言,记录下所有状况下所有人可能做出的所有反应(这里”所有“大概应该指,大于95%)。以后那些基于”云大脑“的Siri、Cortana们一见面就会成为我们最好的朋友,了解我们的一切好恶并为我们安排好日常起居。但正如电影 Ex Machina (机械姬)提到的一个问题一样,模拟和现实的区别,对于一个已经能够完美模拟人类、能通过图灵测试的机器人来说,究竟在哪里。你夸Siri一句,它会(按云AI里的人类数据所记载的那样)用快乐的语气回答说”谢谢“,但它并不是真正能感觉到被人夸奖的愉悦。人与一个基于大数据来模仿人类的完美的机器人,区分或许就在这真实的感受上。人有激情,有目标,有道德感。
会不会一不留神和机器人结了婚,我现在也不愿提前操心。大数据时代,另一个让我担心的事情反倒是,人会不会逐渐主动去向机器靠拢,否定那些无法被量化、无法被捕捉,但能使人之为人的那些属性。今天我们已经对“颜值”,“战五渣”这种戏仿的伪量化词汇司空见惯。或许有一天,不能量化的东西都会被视为落后而无用。一个自知见识短浅、经验不足的新手投资者,或许会因为敬畏大数据的海量信息,而否定自己的直觉。一个处在道德两难之中的普通人,或许会托付大数据来为自己做出抉择,并因此扶持了一种人多即正义的民粹价值观。或许若干年后的婚礼上,紧张而激动的新人会彼此念出手机拟好的誓词:
“自从爱上了你,每次见到你的头三分钟里,我的心跳都会加快平均每分钟17下。在和你相识相知的三年十个月又十一天里,我的日均卡路里消耗增加了8.2%。我承诺将继续爱你,关心你。考虑到你我未来五十年的非自然死亡预期都低于0.3%, 从今天算起,我会尽力使我们的婚姻维系到超过全国的平均婚姻时长23.6年至少20%(即28年4个月),并在此期间使我们的幸福感指数超过全国56%的已婚人士。”