读懂人工智能,掌握时代先机。
来自:36氪领读
人工智能会带来哪些经济机会?人工智能会夺去你的工作岗位吗?人工智能会造成更多的不平等吗?当人工智能优先时,什么才是你的学习策略?
2013年,谷歌的首席经济学家哈尔·瓦里安(Hal Varian)开导可口可乐公司的罗伯特·戈伊苏埃塔(Robert Goizueta)说:
“10亿小时之前,现代智人出现了。10亿分钟之前,基督教诞生了。10亿秒钟前,IBM的个人电脑上市了。10亿次谷歌搜索之前……是今天早上。”
谷歌并不是唯一一家拥有海量数据的公司。从Facebook、微软等大型公司到地方政府甚至初创公司,数据收集都变得比以往更廉价、更容易了。
这些数据具有价值。数十亿的搜索量意味着,谷歌有了数十亿条可供改善服务的数据线索。有些人把数据称为“新一代的石油”。
预测机器依赖数据。越来越好的数据带来越来越好的预测。从经济角度来说,数据是预测的关键互补品。随着预测变得愈发廉价,它的价值水涨船高。
数据在人工智能中扮演着三种角色。首先是输入数据,它被馈进算法,用于生成预测。其次是训练数据,它被用来生成最初的算法。
训练数据用于训练人工智能,让后者得以在现实环境下进行良好的预测。最后一种是反馈数据,通过经验来改进算法的表现。在某些情况下,这三种角色存在大量重合,同一批数据甚至能身兼三职。
但获取数据的成本可能很高。因此,投资时有必要权衡的是以下两者:更多数据带来的好处与获取更多数据所付出的成本。为了做出正确的数据投资决策,你必须理解预测机器是怎样使用数据的。
预测需要数据
在新近的人工智能热潮兴起之前,有过一轮大数据热。过去20年,数据的种类、数量和质量均有大幅提升。图像和文本如今都是数字形式了,机器可以对其进行分析。传感器无处不在。大数据热的基础是,人们希望数据能够帮助减少不确定性,以及对正在发生的事情拥有更多了解。
以检测人类心率变化的传感器的进步为例。多家有着“医学味”十足名字的公司和非营利组织(比如AliveCor和Cardiio)都在开发使用心率数据的产品。
初创公司Cardiogram设计了一款苹果手机应用程序,使用苹果手表的心率数据生成了大量信息:使用该款程序,用户可按秒测量心率。用户可以查看一天当中,自己的心率什么时候会达到巅峰,又或者一年内(甚至十年内),心率是否有所加快或放缓。
但这些产品的潜在力量来自大量数据与预测机器的结合。学术界和工业界的研究人员都指出,智能手机可以预测不规则的心律(医学上叫作“心房颤动”)。
因此,依靠各自的预测机器,Cardiogram、AliveCor、Cardiio和其他公司正在开发利用心率数据辅助诊断心脏疾病的功能。一般的方法是,使用心率数据预测如下未知信息:特定用户是否心律异常。
没受过医学专业训练的消费者从原始数据里是看不到心率数据与心律异常之间的关联的。而Cardiogram可以运用深层神经网络探测到心律异常,准确率高达97%。
大约有1/4的中风是心律异常导致的。有了更好的预测,医生便可提供更好的治疗。某些特定药物可用来预防中风。
为此,每个消费者必须提供自己的心率数据。没有个人数据,机器无法预估当事人的风险。预测机器与个人数据相结合便可预测此人心律异常的概率。
机器怎样从数据中学习
当前这一代的人工智能技术被称为“机器学习”是有原因的。机器从数据中学习。就心率监测仪而言,根据心率数据预测心律异常(以及中风概率提高的可能性),预测机器要先学习数据跟心律异常的实际发病率有着怎样的相关性。
为此,预测机器需要将来自苹果手表的输入数据(统计学家称之为“自变量”)与心律异常信息(“因变量”)结合起来。
要让预测机器学习,心律异常信息必须来自同一个向苹果手表提供心率数据的群体。因此,预测机器需要多个心律异常者的数据,以及他们的心率数据。
重要的是,它还需要许多心律无异常人士的数据,及其心率数据。接着,预测机器比较心律正常者和异常者的心率图。有了这样的比较,就可以进行预测。
如果新患者的心率图与心律异常者提供的“训练”样本更为接近,那么,机器就会预测这一患者有着心律异常的问题。
像不少医疗应用一样,Cardiogram与学术研究人员进行了合作,后者通过在研究中监测6000名用户的心率收集到了数据。
在6000名用户里,约有两百人被确诊患有心律不齐。故此,Cardiogram所做的就是收集来自苹果手表的心率图数据并与研究数据进行对比。
此类产品在上市之后仍会继续改进预测的准确度。预测机器需要有关预测是否准确的反馈数据。因此,它需要用户中心律异常的发病率的数据。该机器将这些数据与心脏检测的输入数据相结合,生成反馈,并不断提高预测的准确度。
不过,获取训练数据也可能是件很棘手的事情。为了预测同一组项目(如本例中的心脏病患者),你除了需要目标结果的信息(心律异常),还需要有助于在新条件下预测该结果的信息(心率监控)。
若要预测未来事件,就更具有挑战性了。你只能把想要预测之时已知的信息馈进预测机器。比方说,假设你正想购买明年自己最心爱运动队的季票。
在多伦多,大多数人会购买多伦多枫叶冰球队的季票。你显然希望自己去观看比赛的时候,球队获胜,而不是输掉。你认为,球队至少要能赢半数以上的比赛,购买季票才划算。为了做出这个决定,你需要预测球队获胜的次数。
就冰球而言,进球最多的球队获胜。所以,你认为进球多的球队能赢,进球少的球队往往会输。你决定为预测机器提供过往赛季的数据,包括每支球队的进球数,每支球队对手的进球数,以及每支球队的获胜次数。
你将这些数据提供给预测机器,发现这的确是预测获胜次数的绝佳指标。于是,你打算使用这些信息来预测明年球队的获胜次数。
很可惜,你做不到。你一筹莫展,你没有明年球队进球数的信息,所以,你没法用这些数据来预测球队的获胜次数。你确实拥有去年的进球数据,但它没用,因为你的训练模式是让预测机器从当前年份的数据中进行学习的。
为了做出这一预测,你需要掌握做出预测那一刻手头将会拥有的数据。你也可以使用前一年的进球数来重新训练预测机器,让它预测今年的胜算。你还可以使用其他信息,比如前一年的获胜次数,球员的年龄,他们在冰上的过往表现。
许多商业人工智能应用程序都具有这种结构:将输入数据和结果指标结合起来创建预测机器,接着使用来自新情况的输入数据来预测该情况下的结果。如果你能获得实际结果的数据,那么你的预测机器就能通过反馈不断学习。
关于数据的决策
数据的获取成本往往很高,但没有它预测机器便无法运行。预测机器需要数据来创造、运行和改进。
因此,你必须对所需数据的规模和范围做出决定。你需要多少不同类型的数据?为对机器进行训练,你需要多少种不同的对象?需要多长时间收集一次数据?
类型多,对象多,频率高,意味着成本更高,但也可能带来更高的收益。斟酌这一决定时,你必须仔细判断你想要预测的是什么。特定的预测问题能告诉你到底需要些什么。
Cardiogram想要预测的是中风。它使用心律异常(这是经过医学验证的)作为指标。一旦设定了这个预测目标,它需要的就无非是每个使用这款应用程序的人的心率数据。
它或许还可以使用睡眠、身体活动、家庭病史和年龄等相关信息。提出一些问题来收集年龄和其他信息之后,它只需要一台能够准确地测量心率的设备。
Cardiogram还需要训练数据:它的训练数据涵盖了6000人,其中一小部分人心律异常。尽管有各式各样的传感器以及关于用户的具体信息可供使用,但Cardiogram只需要收集大多数用户的极少量信息。它只需要得到用户心律异常的信息就可以训练自家的人工智能。这样一来,变量的数量就相对少了。
为了做出好的预测,机器的训练数据必须涵盖足够多的用户(或分析单位)。所需用户的数量取决于两个因素:首先,“信号”相较“噪声”有多可靠;其次,预测的准确度必须达到多高才具备可用性。
换句话说,所需用户的数量取决于我们是否期望心率能准确地预测心律异常,以及一旦出错,代价有多大。如果心率是一个强预测指标,而且出了错也没什么大不了的,那么我们只需要几个人就够了。
如果心率是一个弱预测指标,又或者,每一次错误都有可能把用户置于危险境地,那么,我们就需要成千甚至数百万的用户数。
Cardiogram在初步研究中使用了6000人的数据,其中有200人心律异常。随着时间的推移,它通过软件用户是否出现心律异常的反馈来进一步收集数据。
这6000人从哪里来?考虑到对预测的可靠性和准确性的要求,数据科学家有绝佳的工具可评估所需数据量。这些工具叫作“功效计算”(power calculations),它们能告诉你需要分析多少个单元才
能生成有用的预测。需要加以管理的要点是,你必须有所权衡:更准确的预测需要更多的单元以供研究,而且更多的单元有可能代价不菲。
Cardiogram需要高频率的数据收集。它的技术以苹果手表逐秒收集的心率数据为基础。它需要这么高的频率,因为心率在一天当中不同时间会有所不同,而且正确的测量需要反复评估,以判断所测得心率是不是所研究用户的真实值。为发挥作用,Cardiogram的算法运用的是可穿戴设备提供的稳定测量流,而不是患者只能在医生诊室里进行测量得到的那一个结果。
收集这些数据需要一笔昂贵的投资。患者必须随时佩戴着一个设备,因此它会介入患者的日常行为(尤其是对那些没有苹果手表的人来说)。
因为它事关健康数据,存在隐私问题,因此Cardiogram设计的系统改善了隐私功能,但代价是提高了开发成本,降低了机器根据反馈改进预测的能力。它通过应用程序来收集预测中使用的数据;数据本身始终在手表上。
接下来,我们将讨论,在对待需要收集多少数据的问题上,统计思维和经济思维有怎样的区别。(我们会在第四部分讨论策略时思考隐私相关的问题。)
规模经济
数据的增多改进了预测。但你需要多少数据呢?信息增加(不管是单位数量更多、变量类型更多还是频率更高)带来的,对于现有数据量来说,既可能是利益的增加,也有可能是利益的减少。用经济学家的话来说,数据既可能增加规模报酬,也可能减少规模报酬。
从纯粹的统计学角度来看,数据的规模报酬是递减的。你从第三次观察中所得的有用信息比第一百次要多,而你从第一百次观察中所得的有用信息又比第一百万次要多。当你将观察结果加入训练数据的时候,它对改进预测的帮助越来越小。
每一次观察都是一段有助于预测的额外数据片段。就Cardiogram而言,一次观察就是所记录的每两次心跳之间相隔的时间。我们说数据收益递减时,意思是前100次心跳可以让你很好地了解该用户是否心律异常,每一次额外的心跳在改进预测方面都不如前一次重要。
以你去机场要花多长时间为例。如果你从未去过机场,那么,第一次能带来很多有用的信息。第二次和第三次也能让你对“去机场通常要多久”有个准确的认识。
可到了第100次,你对去机场要花多长时间就不太可能获得更多的信息了。从这个角度来说,数据的规模报酬是递减的:你获得的数据越多,每一段额外的数据片段的价值就越低。
从经济的角度来看情况可能并非如此,其着眼点不在于数据如何改进预测,而在于数据如何提高你从预测中所获得的价值。有时候,预测和结果是同步的,因此,统计学上观察到的报酬递减暗含了你所在意的那些结果的报酬递减。然而,这两者不是一回事。
举个例子,消费者可以选择使用你的产品,也可以选择使用你竞争对手的产品。如果你的产品始终跟对手的产品一样好甚至更好,他们就只用你的产品。可很多时候,只要有现成可用的数据,所有的竞争者都能表现得一样好。
例如,大多数搜索引擎对常见搜索都可提供类似的结果。不管你使用的是谷歌还是必应,搜索“贾斯汀·比伯”所得的结果都差不多。如果能为非常见的搜索提供更好的结果,这种能力越强,搜索引擎的价值就越高。
试试在谷歌和必应里输入“破坏(disruption)”一词。在撰写本书期间,谷歌既显示了字典里的定义,也显示了与克莱·M. 克里斯坦森(Clay Christensen)“颠覆性创新(disruption innovation)”的概念相关的结果。必应的前九个结果均只给出了字典里的定义。
谷歌搜索结果更好的一个关键原因在于,要弄清此类非常见搜索中搜索者的需求就要有这类搜索的相关数据。不管是进行非常见搜索还是常见搜索,大多数人都会使用谷歌。就算搜索引擎只比对手好一点,也可能在市场份额和收入上造成巨大差异。
因此,尽管从技术角度而言,数据的规模报酬是递减的(第十亿次搜索对搜索引擎的改进不如第一次大),但站在业务角度讲,如果你比竞争对手拥有更多更好的数据,数据就是最有价值的东西。
有人甚至认为,拥有越多与独一无二的因素相关的数据,就越能在市场上获得不成比例的回报。增加数据能在市场上带来不成比例的回报。因此,从经济的角度来看,此种情况下的数据有可能带来规模报酬递增。