1.Nvidia的AI计算演进
故事要从2012年说起,那年的计算机视觉界的大赛ILSVRC,Hinton和弟子Alex用两台NVIDIA GTX580显卡,跑了个离第二名很远的第一,AlexNet名声大噪,N卡也成了AI界的标配,7年过去了,AI界的训练和推理依然依赖着Nvidia。
Nvidia的核心计算架构,一直保持着快速更新迭代,深度学习大火之后更是进入了一年一迭代的速度。而每个计算架构产生产品的速度就更快了。Kepler、Maxwell之后涌现了许多耳熟能详的玩深度学习必备好卡,如TK1、GTX 980Ti、1080Ti...
编辑搜图
近10年Nvidia的计算架构演变
2015年,Nvidia全力进军深度学习计算,GeForce GTX TITAN X是云侧深耕深度学习的一款重物。面向终端,更推出了嵌入式超级计算机Jetson TX1,让嵌入式AI端计算AI成为可能,1Tflops算力的边缘芯片,相比云侧,成本降到了399美金,AI的端计算产品化,迎来了初春。
2016年,第11代架构Pascal诞生,Pascal架构上诞生了P100,P4,P40等目前各AI厂里仍在使用的好卡。基于P100的第一台AI超算DGX-1,也在这年问世。
2017,快马加鞭推出Volta架构,Tesla V100就是代表力作。
2018,Turing架构、而基于16张V100的DGX-2的超算平台,算力达到了2petaFlops、Jeston Xavier...Nvidia依旧追求着云+端的超强算力路线,随之而涨的还有价格。
编辑搜图
受益于深度学习,股价翻了17.89倍
除了深度学习,还有什么成就了Nvidia的大爆发?生态+易获取度。早期学术玩家设计的训练框架直接支持GPU,加上Nvidia的cudnn,tensorRT加速,作为学术跟进者,产业开发者,为了快速出成果,最好的方法就是享用已有的基础成果。一张不差的N卡,4G显存,caffe,一个可通美国的网络,在2014年到2016年,这样的易获取度高到在家就可以搭建一个人工智能实验室。所以,是深度学习+生态+易获取度造就了Nvidia AI。
2019,格局在变化,东方在崛起。
2.围剿
(1)Google TPU
2016年,围棋人机大战。Google用GPU调教,用TPU实战的AlphaGo大胜李世石。这次大战让google、AlphaGo、TPU一炮而红,而躁动的,还有投资界,焦虑的资金涌入AI产业,造就了AI全产业链的投资狂热,这对后续国产芯片公司的崛起,也带来了积极的影响。2016年之前的AI,只能说是学术AI,而2016年是真正意义的产业AI元年。
编辑搜图
请点击输入图片描述
TPU又经历了多次迭代,2018年,TPU更新到3.0,Cloud TPU正式对外开放,使用价格6.5美元/小时,而国内玩家需要上google cloud platform,门槛要比买一张GPU高得多。虽然产品成熟、配合着Tensorflow,生态成熟,但不容易越过的网络,训练中数据安全问题等,让TPU在中国的易获得度极低。
而应对边缘计算,Edge TPU的问世让边缘AI产品有了新选择,产品的竞争力不可否认,但在市场化上,对中国市场的不积极,意味着失去AI的大半壁江山。
(2)寒武纪
回到2014年,陈天石、陈云霁兄弟在学术上连续开挂,提出国际首个深度学习处理器架构DianNao(电脑),获得处理器架构领域顶会ASPLOS 2014最佳论文奖,这是亚洲第一次获此殊荣。接着,他们又提出首个多核深度学习处理器学术架构DaDianNao(大电脑),获得处理器架构领域另外一个顶级国际学术会议MICRO 2014最佳论文奖,而这是美国以外的国家第一次获得。
编辑搜图
请点击输入图片描述
2016年,陈天石、陈云霁兄弟创立了中科寒武纪,开启学术转化之路。寒武纪是地球演变中生物大爆发的时期,而在AI时代,他们的寒武纪肩负着引领AI产业大爆发的使命。
2016到2018年,在终端处理器IP上,寒武纪推出了Cambricon-1A/1H/1M,被用到了华为麒麟系列芯片的NPU上。而云端计算卡,推出了MLU 100、思元MLU270等,2年,实现了端和云芯片产品的落地,从算力上看,思源MLU270大幅超越NVIDIA P100。
(3)华为
看AI落地,先看安防,而说起国内AI安防应用芯片,需先从海思安防端计算芯片说起。
2017年底,海思推出了Hi3559AV100,80美金的售价,对应4Tflops的算力,具备16路1080p视频解码能力,AI厂子们玩起了16路人脸识别,也就是单路芯片成本降到了5美金,无论是用于端还是中心,这都是一个极具诱惑力的生意。而NVIDIA的TX2是2Tflops算力,399美金售价,简单粗暴的算,性价比是TX2的10倍,这是一次降维打击,尽管NVIDIA xavier、nano等端计算产品在提升,但性价比上,根本无法和海思抗衡。当某种基础产品价格大幅下降的时候,才是整个产业发生变化的基础,而这个变化,就是让AI普惠化,高昂的价格,从来都是普惠的敌人。
再说云端训练及推理芯片,2018年10月,华为重磅发布昇腾910,单芯片算力吊打NVIDIA V100,集群吊打Google TPU3.0 Pod,到这一步,可以说国产AI芯片已经逆袭,虽然昇腾910的产品化转化、应用生态仍待完善,但AI芯片产业,格局初定。
编辑搜图
请点击输入图片描述
编辑搜图
资料:来源于华为发布会
(4)围剿
如果说华为、寒武纪是主力,那么还有一众援兵,得益于产业快速发展,百度、比特大陆、瑞芯微、依图、平头哥、地平线等等公司的专用AI芯片产品遍地开花,许多AI公司、互联网公司正加码投入AI芯片战斗中,覆盖从云到端、从训练到推理、从安防到智慧城市应用、从B端到C端应用。
AI苦N久矣,旧的AI芯片壁垒已破,国产AI芯片崛起而夺回国内市场、走出海外,这就是一条必然的路。
3.附:关于计算智能
从AI功能上进行划分,个人认为可划分为计算智能、感知智能、认知智能、决策智能。计算智能可以粗略地认为就是计算,包含了硬件计算和软件算法计算,计算智能的提升,既需要半导体的发展,也需要算法的优化支撑,共同形成了AI领域的计算智能。
编辑搜图
AI四分类
2018年安博会,华为推出了iCAN智能指数,模仿智能驾驶,提出了多个智能标准等级。
编辑搜图
iCAN智能指数=f(算力,算法,协同)
来源:华为技术有限公司
编辑搜图
iCAN智能指数(Intelligence Index)=F(算力、算法、数据、场景)
来源:华为技术有限公司
无论是在华为演进的两张iCAN智能指数中,还是在计算智能中,算力是最重要的衡量指标,也是AI的基础。算力可由多个维度来衡量:
(1)性能
可以通过运算速度来衡量,如端侧芯片单颗海思Hi3559A芯片可以提供4TFLOPS算力,这里的TFLOPS是Tera Floating-point operations per second,而这里的算力还需加一个前提,主要分为双精度(FP64)、单精度(FP32)、半精度(FP16)、整型计算(INT8)。因为采用不同位数的浮点数的表达精度不一样,造成的计算误差也不一样,双精度固然好,但在一些应用,比如多媒体和图形处理计算,32位的单精度浮点计算已经足够了,对于要求精度更低的机器学习等一些应用来说,半精度16位浮点数就可以甚至8位浮点数就已经够用了。
(2)密度
可以从AI芯片的工艺角度衡量,如海思Hi3559A芯片采用14nm工艺,昇腾310芯片12nm工艺。NVIDIA V100 采用12nm工艺,昇腾310则仅采用7nm工艺,制作工艺越小,单位面积晶体管数量越多,密度越大。
(3)功耗
功耗是芯片产品关注的重点指标,尤其是端计算芯片,功耗的大小配合电池能力决定了续航能力,从而决定了可解锁场景,功耗也是衡量芯片算力的重要标准,如Hi3559A芯片典型功耗为3w,NVIDIA V100为250w
(4)算力能耗比
性能和能耗的比值越大,说明单位功耗可计算的次数越多,这是倡导绿色AI衡量的重要指标,毕竟有些模型跑一下的碳排放量已经非常不环保了。比如Hi3559A的算力能耗比就达到4T/3w=1.33Tflops/w。
4.附:第一张AI算力天梯图
很多AI从业者一定遇到过对比多款加速卡或者芯片性能的时候,苦于找不到直观简单的资料,类似GPU的天梯图,所以制作了第一张常用芯片/加速卡产品的AI算力天梯图,后续将继续详细和完善。