机器学习|使用AI为何如此耗电？

本月，谷歌逼走了一位著名的人工智能伦理研究人员，因为她对公司让她撤回一篇研究论文表示不满。该论文指出了语言处理人工智能的风险，这种人工智能用于谷歌搜索和其他文本分析产品中。其中的风险包括开发这类人工智能技术所带来的巨大碳足迹。据一些人估计，训练一个人工智能模型所产生的碳排放，相当于制造和驾驶五辆汽车在其一生中所需要的碳排放。

本文作者是一名研究和开发AI模型的研究人员，对AI研究中暴涨的能源和财务成本非常熟悉。为什么AI模型会变得如此耗电，与传统的数据中心计算有什么不同？本文将会探讨一下。

今天的培训是效率低下

在数据中心完成的传统数据处理工作包括视频流、电子邮件和社交媒体。AI的计算量更大，因为它需要阅读大量的数据，直到学会理解这些数据。与人的学习方式相比，这种训练的效率非常低。现代人工智能使用的是人工神经网络，它是模拟人脑神经元的数学计算。每个神经元与邻居的连接强度是网络的一个参数，称为权重。为了学习如何理解语言，网络从随机权重开始，并调整它们，直到输出与正确答案一致。

训练语言网络的一个常见方法是，从维基百科和新闻机构等网站上给它输入大量的文本，其中一些单词被掩盖掉，然后让它猜测被掩盖掉的单词。一个例子是 "我的狗很可爱"，"可爱 "这个词被掩盖掉了。一开始，模型会把它们全部弄错，但是，经过多轮调整后，连接权重开始变化，并在数据中发现了模式，网络最终变得准确。

最近的一个名为 "变形金刚双向编码器表示"（BERT）的模型使用了33亿个英文书籍和维基百科文章中的单词。而且，在训练过程中，BERT对这个数据集的阅读不是一次，而是40次。相比之下，一个普通的学说话的孩子在5岁前可能会听到4500万个单词，比BERT少3000倍。

寻找合适的结构

让语言模型的构建成本更高的是，这个训练过程在开发过程中会发生很多次。这是因为研究人员希望找到网络的最佳结构--有多少神经元，神经元之间有多少连接，学习过程中参数的变化速度应该有多快等等。他们尝试的组合越多，网络达到高精度的机会就越大。相比之下，人类的大脑不需要找到一个最佳结构--它们自带一个经过进化磨练的预建结构。

随着公司和学术界在人工智能领域的竞争，人们面临的压力是如何在技术状态上进行改进。即使在机器翻译等困难任务上实现1%的准确性改进，也被认为是重要的，并会带来良好的宣传和更好的产品。但为了获得这1%的改进，一个研究者可能要对模型进行数千次训练，每次都用不同的结构，直到找到最好的模型。

马萨诸塞大学阿默斯特分校的研究人员通过测量训练过程中常用硬件的功耗，估算了开发人工智能语言模型的能源成本。他们发现，训练一次 BERT 的碳足迹相当于一名乘客在纽约和旧金山之间飞一个来回。然而，通过使用不同的结构进行搜索--也就是说，通过使用略微不同数量的神经元、连接和其他参数对数据进行多次训练，成本变成了相当于315名乘客，或者整架747飞机的成本。

更大更热

AI模型也比它们需要的大得多，而且每年都在增长。一个类似于 BERT 的最新语言模型，叫做 GPT-2，它的网络中有 15 亿个权重。GPT-3，今年因为其高准确度而引起轰动，它有1750亿个权重。

研究人员发现，拥有更大的网络会带来更好的准确性，即使最终只有一小部分网络是有用的。类似的事情也发生在儿童的大脑中，当神经元连接首先被添加，然后减少，但生物大脑比计算机更节能

AI模型是在专门的硬件上进行训练的，比如图形处理器单元，它们比传统的CPU消耗更多的电力。如果你拥有一台游戏笔记本电脑，它可能有一个这样的图形处理器单元，以创建高级图形，例如，玩Minecraft RTX。你可能也会注意到，它们产生的热量比普通笔记本电脑多得多。

所有这些都意味着，开发高级人工智能模型正在增加大量的碳足迹。除非我们改用100%的可再生能源，否则人工智能的进步可能会与减少温室气体排放和减缓气候变化的目标背道而驰。开发的财务成本也变得如此之高，以至于只有少数选定的实验室能够负担得起，而他们将成为制定什么样的人工智能模型得到开发的议程的人。

事半功倍

这对人工智能研究的未来意味着什么？事情可能并不像看起来那么暗淡。随着更高效的训练方法被发明出来，训练的成本可能会下降。同样，虽然数据中心的能源使用被预测会在近几年爆炸式增长，但由于数据中心效率的提高，更高效的硬件和冷却，这种情况并没有发生。

训练模型的成本和使用模型的成本之间也有一个权衡，所以在训练的时候花费更多的精力来得出一个更小的模型，实际上可能会让使用模型的成本更低。因为一个模型在它的一生中会被使用很多次，这就会增加大量的能源节约。

在实验室的研究中，我们一直在研究如何通过共享权重，或者在网络的多个部分使用相同的权重来使AI模型变得更小。我们称这些网络为shapshifter网络，因为一组小的权重可以被重新配置成任何形状或结构的大网络。其他研究人员已经表明，在相同的训练时间内，权重共享具有更好的性能。

展望未来，人工智能界应该在开发节能的训练方案上投入更多。否则，就有可能让人工智能被少数有能力设定议程的人所主导，包括开发什么样的模型，用什么样的数据来训练它们，以及模型的用途。

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 219,589评论 6赞 508
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 93,615评论 3赞 396
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 165,933评论 0赞 356
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,976评论 1赞 295
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,999评论 6赞 393
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,775评论 1赞 307
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,474评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,359评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,854评论 1赞 317
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,007评论 3赞 338
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,146评论 1赞 351
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,826评论 5赞 346
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,484评论 3赞 331
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,029评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,153评论 1赞 272
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,420评论 3赞 373
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,107评论 2赞 356

机器学习|使用AI为何如此耗电？

今天的培训是效率低下

寻找合适的结构

更大更热

事半功倍

推荐阅读更多精彩内容