原创 柳鑫荻 [图灵财经](javascript:void(0);) 2024年10月30日 09:00 北京
人工智能、经济学和产业组织(上篇)
Artificial Intelligence, Economics, and Industrial Organization
作者:Hal Varian
来源:*NBER Working Paper, *July2018
导语
作为微观经济学和信息经济学的著名学者、谷歌首席经济学家,哈尔·范里安(Hal Ronald Varian)曾在2018年发表了自己对人工智能(机器学习)将如何影响经济学和产业组织的看法。文章首先概述了机器学习、数据的特性及其带来的权属和边际收益问题,之后分别分析了使用和提供机器学习的产业的结构,比如企业规模、定价和规模报酬问题,并介绍了重复博弈中算法合谋问题。
本文看似简单明了,实则鞭辟入里、深中肯綮。Varian结合自己以往的研究、目前对新技术和新产业的观察、以及许多经典和权威的研究观点,讨论和展望了许多商业模式,并为产业组织和政府提出战略指引。他还提到了如机器学习下有益的价格歧视、软件开发未必规模报酬递增、“数据网络效应”不是网络效应、算力强的企业可能选择产能过剩并将增量出售给其它企业等新颖而独到的观点。但正如作者所言,文章对这些问题没有过多讨论,只在抛出见解后提供相关资料,以供读者参考。
本文涉及到网络经济学、微观经济学、博弈论中的许多重要话题,图小灵对一些重要的经济学理论和技术名词做了简单注解。作为颇具启发性的观点文,不同的读者会从中得到不同深度的思考,您如何看待Varian的分析思路?在写作六年后,个中预测是否得到验证?欢迎读者踊跃讨论,或对译文进行批评补充。
摘要
机器学习(ML)和人工智能(AI)已经存在多年。然而,在过去 5 年中,多层神经网络在图像识别、语音识别和机器翻译等多个领域取得了显著进展。人工智能是一种通用技术,可能会对许多行业产生影响。本文将考虑机器学习的可用性,它会如何影响提供人工智能服务的公司和采用人工智能技术的行业的产业组织,本文的意图不是对这一快速发展的领域进行广泛概述,而是对一些起作用的力量进行简短总结,并描述未来研究的一些可能领域。
1.机器学习概述
想象一下,现在有一组数字图像和一组描述图像内容的标签——比如猫、狗、海滩、山、汽车或人。我们的目标是利用这些数据来训练计算机,让它学会如何预测一组新的数字图像的标签。请参阅 cloud.google.com/vision,这里有一个很好的演示,你可以上传一张照片,然后检索出适合该照片的标签列表。
机器视觉的经典方法包括创建一套规则,识别图像中具有人类可识别特征(如颜色、亮度和边缘)的像素,然后使用这些特征来预测。这种 “特征化 ”方法取得了有限的成功。现代方法是使用分层神经网络直接处理原始像素。这种方法不仅在图像识别方面取得了巨大成功,而且在语音识别、语言翻译和其他传统上比较困难的机器学习任务方面也取得了巨大成功。如今,计算机在许多此类任务中都能胜过人类。
这种方法被称为深度学习,需要:1)用于训练的标记数据;2)神经网络算法;3)运行算法的专用硬件。学术界和科技公司免费提供训练数据和算法,云计算设施的计算时间只收取象征性费用。
训练数据。例如OpenImages,一个950万的标记图像数据集和斯坦福狗数据集(Stanford Dog Dataset),120个品种的20580张图像。
算法。流行的开源包包括TensorFlow、Caffe、MXNet和Theano。
硬件。cpu(中央处理单元)、gpu(图形处理单元)和tpu(张量处理单元)可以通过云计算提供商获得。这些设施允许用户组织大量数据,这些数据可用于训练机器学习模型。
当然,拥有能够管理数据、调整算法和培育整个过程的专家也很重要。事实上,这些技能是目前的主要瓶颈,但大学正在迅速直面挑战,提供创建和利用机器学习所需的教育和培训。
除了机器视觉,深度学习研究界在语音识别和语言翻译方面也取得了巨大进步。这些领域在取得这些进展时,也无需像以前的机器学习系统那样进行特征识别。
维基百科的相关词条介绍了其他类型的机器学习。机器学习的一种重要形式是强化学习(reinforcement learning)。这是一种机器优化某些任务(如在国际象棋或视频游戏中获胜)的学习类型。强化学习的一个例子是多臂老虎机(multi-armed bandit),但还有许多其他工具,其中一些涉及深度神经网络。
强化学习是一种顺序实验,因此从根本上讲与因果关系有关:将某个棋子从一个位置移动到另一个位置,会导致获胜的概率增加。这与只使用观察数据的被动式机器学习算法不同。
强化学习也可以在对抗背景下实现。例如,2017 年 10 月,DeepMind 公布了一个机器学习系统 Alpha Go 0,该系统通过与自己下围棋对弈,开发出了一种高效的策略。“自学成才的机器学习 "模式是一个有趣的博弈论模型。深度网络能否完全靠自己学会与其他棋手竞争和/或合作?学习到的行为是否会与我们建立的博弈论模型的均衡点相似?到目前为止,这些技术主要应用于完全信息博弈。在信息不完全或不对称的博弈中,它们也能发挥作用吗?
人工智能有一个完整的子领域,被称为对抗式人工智能(或称对抗式机器学习,adversarial AI/ ML),它结合了人工智能、算法理论和计算机安全的主题,研究攻击和防御人工智能系统的方法。例如,假设我们有一个训练有素的图像识别系统,它的平均性能很好。那么它的最差表现如何呢?事实证明,有一些方法可以创造出对人类无害的图像,从而持续欺骗人工智能系统。就像 “光学幻觉 ”可以欺骗人类一样,这些 “ML 幻觉 ”也可以欺骗机器。
有趣的是,对人类和机器来说,最佳的幻觉是截然不同的。有关一些例子,请参阅 [Goodfellow et al 2017] 的说明性实例和 [Kurakin, et al 2016] 的技术报告。计算机科学研究人员已经认识到了与博弈论之间的联系,这一领域提供了许多有趣的合作机会。例如 [Sreevallabh and Liu 2017]。
1.1 机器学习的能力何在?
大众媒体报道的机器学习实例强调的是新颖的应用,如在国际象棋、围棋和乒乓球等游戏中获胜。不过,也有许多实际应用利用机器学习来解决现实世界中的商业问题。Kaggle 是了解机器学习能解决哪些问题的一个好地方。这家公司设立了机器学习竞赛。企业或其他组织会提供一些数据、问题陈述和奖金。然后,数据科学家使用数据来解决所提出的问题。获胜者可以将奖金带回家。网站上有 200 多场竞赛;以下是最近举办的几场。
- 居民威胁;提高国土安全威胁识别的准确性;1,500,000美元
- 房屋价格;提高Zillow房屋价格预测的准确性;1,200,000美元
- 维基百科页面流量;预测维基百科页面未来的流量;25,000美元
- 个性化医疗;预测基因变异的影响,以实现个性化医疗;15,000美元
- 出租车行程持续时间;预测纽约出租车行程的总乘坐时间;30,000美元
- C产品搜索相关性;预测homedepot.com上搜索结果的相关性;40,000美元
- 聚类问题;能否识别出意图相同的一组问题;25,000美元
- 宫颈癌筛查;哪种癌症治疗方法最有效;100,000美元
- 点击预测:你能预测每个用户会点击哪些推荐内容吗:25.000美元
- 库存需求;使烘焙食品的销售量最大化,退货量最小化;25,000美元
令人高兴的是,这些都是真实的问题和真实的资金,来自那些希望得到真实答案来解决真实问题的组织。Kaggle 提供了机器学习如何应用于实际业务问题的具体案例。【Varian在此处声明:“我曾是 Kaggle 的天使投资人,直到 2017 年年中 Kaggle 被谷歌收购。从那以后,我在该公司没有任何经济利益。”】
1.2 哪些要素是稀缺的?
假设你想在组织中部署一个机器学习系统。首先需要有一个数据基础设施来收集和组织感兴趣的数据——数据管道(data pipeline)。例如,零售商需要一个能在销售点收集数据的系统,然后将数据上传到计算机,再由计算机将数据整理到数据库中。然后,这些数据将与其他数据(如库存数据、物流数据以及客户信息)结合起来。构建这一数据管道往往是数据基础设施建设中最耗费人力和物力的部分,因为不同的企业通常都有各自不同的遗留系统,很难实现互联。
一旦数据整理完毕,就可以将其收集到数据仓库(data warehouse)中。通过数据仓库,可以方便地访问能够对数据进行操作、可视化和分析的系统。传统上,公司运行自己的数据仓库,不仅需要购买昂贵的计算机,还需要人工系统管理员来保证一切正常运行。如今,在亚马逊网络服务、谷歌云平台或微软 Azure 云等云计算设施中存储和分析数据的做法越来越普遍。
云计算提供商负责管理和更新托管数据库和数据分析工具所需的硬件和软件。从经济角度来看,有趣的是,用户以前的固定成本(数据中心)现在变成了可变成本(从数据中心购买服务)。一个组织几乎可以购买任何数量的云服务,因此即使是小公司也可以从最低水平开始,然后根据使用情况收费。云计算比拥有自己的数据中心更****具成本效益,因为计算和数据资源可以按需购买。
毋庸置疑,如今大多数初创科技公司都使用云计算提供商来满足其硬件、软件和网络需求。云提供商还提供各种机器学习服务,如语音识别、图像识别、翻译等。这些系统已经过供应商的培训,客户可以立即使用。每家公司不再需要为这些任务开发自己的软件。
云计算供应商之间的竞争非常激烈。提供高度详细和具体的图像识别功能的成本为每张图像十分之一美分或更低,在此价格基础上还可享受批量折扣。
用户还可能拥有与自身业务相关的特殊数据,如销售网点数据。云提供商还提供最新的、高度优化的硬件和软件,以实现流行的机器学习算法。这样,用户就可以立即使用功能强大的工具。前提是他们具备使用这些工具的专业知识。如果硬件、软件和专业知识都具备了,那么所需要的就是被标注的数据(the labeled data)。
获取此类数据的方法有很多种。
运营的副产品。想想一家连锁餐厅,有些餐厅的业绩比其他餐厅好,管理层可能会对与业绩相关的因素感兴趣。上述Kaggle竞赛中的大部分数据都是日常运营的副产品。
网络爬取。这是从网站中提取数据的常用方法。在收集数据和如何使用数据两方面,究竟什么是允许的,在法律上存在争议。由于争论过于复杂,无法在此讨论,但维基百科上关于网络爬取的词条很不错。另一种方法是使用他人已经收集的数据。例如,通用抓取数据库(CommonCrawl)包含了经过8年网络抓取整理出来的PB 级数据。
提供服务。当谷歌开始语音识别工作时,它既没有专业知识,也没有数据。于是,谷歌聘请了专业人士,他们提出了通过语音输入电话簿来获取数据的想法。用户说出“帕洛阿尔托大学路乔比萨店”,系统就会给出一个电话号码。数字化的问题和由此产生的用户选择被上传到云端,机器学习被用来评估谷歌的回答与用户操作之间的关系--例如,拨打建议的电话号码。机器学习训练使用的数据来自数百万个单独的号码请求,学习速度很快。ReCAPTCHA 采用了类似的模型,由人类对图片进行标注,以证明自己是人类而非简单的机器人。
雇佣专人标注数据。MechanicalTurk和其他系统可用于付费让人标注数据。参见 Hutson(2017)。
从提供商处购买数据。 有许多供应商提供各种数据,如邮件列表、信用评分等。
共享数据。 共享数据可能对双方都有利。这在学术研究人员中很常见。开放图像数据集包含大学和研究实验室提供的约900万张标注图像。出于公共安全等各种原因,共享数据可能是强制性的。例如,飞机的黑匣子或流行病的医疗数据。
来自政府的数据:政府、大学、研究实验室和非政府机构可提供大量数据。
云提供商提供的数据。 许多云提供商也提供公共数据存储库。例如,请参见谷歌公共数据集、谷歌专利公共数据集或AWS公共数据集。
计算机生成的数据。前面提到的AlphaGo0系统通过与自己下围棋来生成自己的数据。机器视觉算法可以使用“合成图像”进行训练,“合成图像是以各种方式移动、旋转和缩放的实际图像。
1.3 数据的重要特征
信息科学使用 “数据金字塔 ”的概念来描述数据、信息和知识之间的关系(图1)。某些系统必须收集原始数据,然后对这些数据进行组织和分析,以便将其转化为信息——人类可以理解的文本文档图像。想象一下将图像中的像素转化为人类可读的标签。过去,这项工作由人类完成;未来,越来越多的工作将由机器完成。
从信息中获得的洞察力可以转化为知识,而知识通常体现在人类身上。我们可以认为,数据存储在比特中,信息存储在文件中,而知识则存储在人类中。****信息(书籍、文章、网页、音乐、视频)和知识(劳动力市场、顾问)都有发达的市场和监管环境。而数据市场——即无组织的比特集合——则没有那么发达。这也许是因为原始数据****往往在很大程度上取决于具体情况,在转化为信息之前用处不大。
图1:数据金字塔
(一)数据所有权和数据访问权
有人说,“数据是新的石油”。当然,它们有一点是相同的:都需要经过提炼才能发挥作用。但两者有一个重要区别:石油是私人物品,石油消费是竞争性的:如果一个人消费了石油,那么可供其他人消费的石油就会减少。但数据是非竞争性的:一个人对数据的使用不会减少或降低另一个人对数据的使用。
因此,与其关注数据的 “所有权”——一个适用于私人物品的概念——我们真正应该考虑的是数据的使用权。数据很少像私人物品那样被 “出售”,而是被许可用于特定用途。目前,欧洲正在进行一场关于 “谁应该拥有自动驾驶汽车数据 ”的政策辩论。一个更好的问题是,"谁应该获得自动驾驶汽车数据,他们能用这些数据做什么?”这一表述强调了多方可以同时访问自动驾驶汽车数据。事实上,从安全的角度来看,似乎很有可能允许多方访问自动驾驶汽车数据。一辆汽车中很容易存在多个数据收集点:发动机、导航系统、乘客口袋里的手机等等。在没有充分理由的情况下要求排他性,会不必要地限制数据的使用。
罗斯-安德森(Ross Anderson)【译者注:Anderson是英国皇家工程院院士和剑桥大学教授,是安全工程领域的先驱,也是发现安全系统和算法漏洞方面的权威。】在描述飞机失事时发生的情况时提出了一个重要观点,说明了为什么允许多方访问数据可能是合适的。
“飞机失事是头版新闻。调查小组赶赴现场,随后由来自各种利益组织的专家进行调查,这些组织包括航空公司、保险公司、制造商、飞行员工会和当地航空管理局。他们的调查结果会被记者和政界人士研究,在飞行员餐厅里讨论,并由飞行教练传授。总之,飞行界有一个强大而制度化的学习机制。Anderson [1993]。”
难道我们不应该为自动驾驶汽车建立同样的学习机制吗?****有些信息可以受到版权保护。但在美国,电话簿等原始数据不受版权保护。(参见维基百科中关于 Feist Publications, Inc 诉 Rural Telephone Service Co.一案的词条)。尽管如此,数据提供商可能会汇编一些数据,并以一定条件向其他方提供许可。例如,有几家数据公司将美国人口普查数据与其他类型的地理数据合并,并向其他方提供这些数据的许可。这些交易可能禁止转售或再许可。尽管不存在可保护的知识产权,但合同条款构成了私人合同,法院可以像执行任何其他私人合同一样强制执行。
(二)边际收益递减
最后,重要的是要明白,数据与其他生产要素一样,通常表现出规模收益递减的特点。同样的一般原理也适用于机器学习。图2展示了随着训练数据量的增加,斯坦福犬种分类的准确性是如何表现的。正如我们所预期的那样,准确率会随着训练图像数量的增加而提高,但提高的速度是递减的。
图2:识别准确率的上升
图 3 展示了 ImageNet 竞赛【译者注:ImageNet 大规模视觉识别挑战赛(ILSVRC)】的错误率在过去几年中的下降情况。关于这项比赛的一个重要事实是,在此期间,训练和测试观测数据的数量是固定的。这意味着获胜系统性能的提高不能取决于样本量,因为样本量一直是固定的。其他因素,如改进的算法、改进的硬件和改进的专业知识,都比训练数据中的观测值数量重要得多。
图3:识别错误率的下降
2.使用机器学习的行业结构
与任何新技术一样,机器学习的出现引发了几个经济问题。
哪些企业和行业将成功采用机器学习?
在采用时机和有效使用 ML 的能力方面,我们会看到异质性吗?
后来者能否模仿先行者?
专利、版权和商业秘密的作用是什么?
地理因素在采用模式中的作用是什么?
早期成功采用者是否有很大的竞争优势?
[McKinsey 2017] 对 3000 名 “具有人工智能意识 ”的 C 级高管进行了一项关于采用准备情况的调查。在这些高管中,20%是 “认真的采用者”,40%正在 “尝试”,28%认为他们的公司 “缺乏技术能力 ”来实施人工智能。麦肯锡认为,领导力、技术能力和数据访问是推动采用的关键因素。图4显示了各经济部门采用机器学习的不同情况。毫不奇怪,电信、科技和能源等行业领先于建筑和旅游等不太懂技术的行业。
图4:各部门采用机器学习的情况
2.1 机器学习和垂直整合
产业组织面临的一个关键问题是,如何将机器学习工具和数据结合起来以创造价值?是在公司内部还是跨越公司边界?机器学习用户是开发自己的机器学习能力,还是从供应商那里购买机器学习解决方案?这是一个典型的 “制造(make) ”与 “购买(buy) ”的问题****,也是理解现实世界产业组织的关键所在。
如前所述,云计算供应商为数据处理和分析提供集成的硬件和软件环境。它们还提供对公共和私有数据库的访问,提供标签服务、咨询和其他相关服务,从而实现一站式数据处理和分析。云提供商提供的特殊用途硬件(如 GPU 和 TPU)已成为使提供商服务与众不同的关键技术。
与往常一样,标准化和差异化之间存在着矛盾。云提供商正在激烈竞争,以提供易于维护的标准化环境。与此同时,他们也希望提供能使自己的产品与竞争对手区别开来的服务。数据处理和机器学习自然是产品速度和性能的竞争领域。
2.2 企业规模和边界
机器学习会增加还是减少****最小有效规模【minimum efficient scale,指长期中平均成本处于或接近其最小值的最小的规模,通常为长期平均成本(LAC)曲线的最低点。——译者注】?答案取决于固定成本与可变成本之间的关系。如果企业必须花费大量资金来开发定制化解决方案,我们可能会认为固定成本很高,企业规模必须很大才能摊销这些成本。另一方面,如果企业可以从云供应商那里购买现成的服务,我们就会认为固定成本和最小有效规模都很小。
举例来说,假设一家换油服务公司【oil change service,更换汽车发动机油、齿轮油并做附带保养】希望通过姓名问候回头客。他们可以使用将车牌号码与客户姓名和服务历史记录连接起来的数据库来实现这一目标。对于小型供应商来说,编写实现这一功能的软件成本过高,因此只有大型连锁店才能提供此类服务。另一方面,第三方可以开发一种智能手机应用程序,以象征性的成本提供这种服务。这种服务可能会降低最低有效规模。同样的考虑因素也适用于其他小型服务提供商,如餐馆、干洗店或洗衣店。
如今,由于有多家商业服务提供商,新创企业能够外包各种业务流程。就像快餐供应商可以通过单店完善模式,然后走向全国一样,商业服务公司也可以一次建立系统,然后在全球复制。以下是创业公司如何外包的十几项业务流程的清单。
在 Kickstarter 上为项目筹资
使用 LinkedIn 雇用员工
从Google、Amazon、MicroSoft等公司获取云计算和网络
使用 Linux、Python、Tensorflow等开源软件
使用 GitHub 管理软件
成为微型跨国公司,从国外雇用程序员
举办Kaggle 机器学习竞赛
举办Kaggle 机器学习竞赛
使用 Skype、Hangouts、Google Docs 等进行团队交流
使用 Nolo 编写法律文件(公司、专利、NDA
使用 QuickBooks 进行会计核算。
使用 AdWords、Bing、Facebook 进行营销
使用 Salesforce 处理客户关系
使用 ZenDesk 提供用户支持
这只是部分清单。硅谷和旧金山的大多数初创企业都会利用其中的几项业务流程服务。通过选择标准化的业务流程,初创企业可以专注于自己的核心竞争力,并在规模扩大时根据需要购买服务。我们可以预期,由于这些业务流程服务的存在,将会有更多的企业进入市场,也会有更多的创新。
2.3 定价
云计算和机器学习的出现为根据客户特征调整价格(adjust prices based on customer characteristics)提供了大量机会。拍卖和其他新颖的定价机制可以轻松实施。价格如此容易调整,意味着可以实施各种形式的差别定价。但必须记住,客户并非束手无策,他们也可以利用更强的搜索能力。例如,航空公司可以采取将购买价格与出发日期挂钩的策略。但也可以创建一些服务,对航空公司的算法进行逆向编程,并就何时购买向消费者提供建议;可以参考Etzione 等人[2003]的例子。Acquisti 和 Varian [2005]提出了一个理论模型,其中说明了消费者如何应对以消费历史为基础定价的尝试,以及消费者如何应对这种尝试。
传统上,价格差异(price differentiation,或称区别定价)分为三类:
一级(个性化)
二级(版本化:所有消费者的价格菜单相同,但价格因数量或质量而异)
三级(基于成员资格的团体定价)
完全个性化定价是不现实的,但基于消费者细粒度特征的价格很可能是可行的,因此第三级和第一级之间的界限变得有些模糊。二级区别定价也可视为按群体成员身份定价,但要认识到群体成员身份和行为的内生性。使用观察数据的机器学习对设计此类定价方案的帮助有限。不过,多臂老虎机等强化学习技术可能会有所帮助。
大多数非经济学家认为,比价格差异更糟糕的是价格歧视。然而,大多数经济学家都承认,从效率和公平的角度来看,价格差异化往往是有益的。价格差异化使原本得不到服务的市场得到了服务,而这些得不到服务的市场往往涉及低收入消费者。
2.4 规模报酬
与机器学习相关的规模报酬至少有三种类型。
经典的供应方规模报酬(平均成本下降)
需求方规模报酬(网络效应)
干中学(learning by doing,凭借经验提高质量或降低成本)。
(一)供给方规模报酬
软件似乎是供给方规模报酬(递增)的典型案例:开发软件的固定成本很大,而分发软件的可变成本很小。但是,如果我们将这个公认的简单模型与现实世界进行比较,就会发现一个直接的问题。
软件开发不是一次性的,几乎所有的软件都会随着时间的推移不断更新和改进。手机操作系统就是一个很好的例子:通常每个月都会发布漏洞修复和安全改进,每年还会发布重大升级。请注意,这与实物商品有多大不同——诚然,汽车的机械故障会有漏洞修复,但汽车的性能随着时间的推移基本保持不变。特斯拉品牌是一个明显的例外,它定期发布新的更新操作系统。
随着越来越多的产品支持网络,我们可以预见这种情况会越来越频繁。电视机过去是一种静态设备,现在可以学习新的技巧。现在,许多电视都能进行语音交互,我们可以预见,机器学习将在这一领域不断进步。这意味着你的电视将变得越来越善于交流,并可能变得更善于分辨你对各种内容的偏好。其他电器也是如此——它们的功能将不再是在销售时就固定不变的,而是会随着时间的推移而不断发展。这就提出了关于商品和服务之间区别的有趣的经济问题。
当人们购买手机、电视或汽车时,他们购买的不仅仅是一种静态的商品,而是一种可以让他们获得一系列服务的设备。这反过来又提出了一系列关于定价和产品设计的问题。
(二)需求方规模报酬
需求方的规模经济或网络效应有不同的种类。有直接的网络效应,即产品或服务对增量采用者的价值取决于其他采用者的总数;也有间接的网络效应,即存在两种或两种以上类型的互补采用者。用户喜欢有大量应用软件的操作系统,而开发者则喜欢有大量用户的操作系统。
直接网络效应可能与选择机器学习系统中使用的编程语言有关,但主要语言都是开源的。同样,潜在用户可能更喜欢拥有大量其他用户的云提供商。不过,在我看来【此处“我”指作者瓦里安,下同】,这与许多其他行业并无不同。汽车购买者很可能偏爱流行品牌,因为经销商、修理厂、零部件和机械师都是现成的。
在律师和监管机构中流传着一个概念,叫做 “数据网络效应”。这种模式认为,拥有更多客户的公司可以收集更多数据,并利用这些数据改进产品。这通常是对的——改善运营的前景正是 ML 的吸引力所在——但这并不新颖。这当然也不是网络效应! 可以回顾 Arrow [1962] 的经典论述;Spiegel and Hendel [2014] 引用了一些最新资料,并提供了一个令人信服的例子。
(三)干中学
干中学一般是指随着累计产量或投资的增加,单位成本下降(或质量提高)的过程。粗略的经验法则是,产量增加一倍,单位成本下降 10%至 25%。虽然这种效率提高的原因尚不明确,但重要的一点是,干中学需要企业的关注和投资,这一点在 Stiglitz and Greenwald [2014]一书中有所描述。
这将干中学与需求方或供应方的网络效应区分开来,后者通常被认为是或多或少自动产生的。这其实也不尽然;关于网络效应下的战略行为,已经有整整一本书被写了出来【译者注:此处或许意指Varian本人与Carl Shapiro合著的《信息规则:网络经济的策略指导》】。但是,干中学与所谓的 “数据网络效应”之间存在着重要区别。一家公司可以拥有海量数据,但如果对数据无所作为,就不会产生任何价值。
根据我的经验,问题不在于缺乏资源,而在于缺乏技能。如果一家公司拥有数据却没有人对其进行分析,那么它就很难利用这些数据。如果公司内部没有现成的专业知识,就很难明智地选择需要哪些技能,以及如何寻找和聘用具备这些技能的人才。聘用优秀人才一直是竞争优势的关键问题。但由于数据的普及相对较晚,这个问题显得尤为突出。汽车公司可以雇用懂得制造汽车的人,因为这是他们核心竞争力的一部分。它们可能有也可能没有足够的内部专业知识来雇用优秀的数据科学家,这就是为什么我们可以预见,随着这项新技能在劳动力市场的渗透,生产率会出现异质性。贝森(Besen)2016、2017 年的文章敏锐地指出了这一问题。