“围剿”Nvidia，国产AI芯片的崛起之路

1.Nvidia的AI计算演进

故事要从2012年说起，那年的计算机视觉界的大赛ILSVRC，Hinton和弟子Alex用两台NVIDIA GTX580显卡，跑了个离第二名很远的第一，AlexNet名声大噪，N卡也成了AI界的标配，7年过去了，AI界的训练和推理依然依赖着Nvidia。

Nvidia的核心计算架构，一直保持着快速更新迭代，深度学习大火之后更是进入了一年一迭代的速度。而每个计算架构产生产品的速度就更快了。Kepler、Maxwell之后涌现了许多耳熟能详的玩深度学习必备好卡，如TK1、GTX 980Ti、1080Ti...

编辑搜图

近10年Nvidia的计算架构演变

2015年，Nvidia全力进军深度学习计算，GeForce GTX TITAN X是云侧深耕深度学习的一款重物。面向终端，更推出了嵌入式超级计算机Jetson TX1，让嵌入式AI端计算AI成为可能，1Tflops算力的边缘芯片，相比云侧，成本降到了399美金，AI的端计算产品化，迎来了初春。

2016年,第11代架构Pascal诞生，Pascal架构上诞生了P100,P4,P40等目前各AI厂里仍在使用的好卡。基于P100的第一台AI超算DGX-1，也在这年问世。

2017,快马加鞭推出Volta架构，Tesla V100就是代表力作。

2018，Turing架构、而基于16张V100的DGX-2的超算平台，算力达到了2petaFlops、Jeston Xavier...Nvidia依旧追求着云+端的超强算力路线，随之而涨的还有价格。

编辑搜图

受益于深度学习，股价翻了17.89倍

除了深度学习，还有什么成就了Nvidia的大爆发？生态+易获取度。早期学术玩家设计的训练框架直接支持GPU，加上Nvidia的cudnn，tensorRT加速，作为学术跟进者，产业开发者，为了快速出成果，最好的方法就是享用已有的基础成果。一张不差的N卡，4G显存，caffe，一个可通美国的网络，在2014年到2016年，这样的易获取度高到在家就可以搭建一个人工智能实验室。所以，是深度学习+生态+易获取度造就了Nvidia AI。

2019，格局在变化，东方在崛起。

2.围剿

(1)Google TPU

2016年，围棋人机大战。Google用GPU调教,用TPU实战的AlphaGo大胜李世石。这次大战让google、AlphaGo、TPU一炮而红，而躁动的，还有投资界，焦虑的资金涌入AI产业，造就了AI全产业链的投资狂热，这对后续国产芯片公司的崛起，也带来了积极的影响。2016年之前的AI，只能说是学术AI，而2016年是真正意义的产业AI元年。

编辑搜图

请点击输入图片描述

TPU又经历了多次迭代，2018年，TPU更新到3.0，Cloud TPU正式对外开放，使用价格6.5美元/小时，而国内玩家需要上google cloud platform，门槛要比买一张GPU高得多。虽然产品成熟、配合着Tensorflow，生态成熟，但不容易越过的网络，训练中数据安全问题等，让TPU在中国的易获得度极低。

而应对边缘计算，Edge TPU的问世让边缘AI产品有了新选择，产品的竞争力不可否认，但在市场化上，对中国市场的不积极，意味着失去AI的大半壁江山。

(2)寒武纪

回到2014年，陈天石、陈云霁兄弟在学术上连续开挂，提出国际首个深度学习处理器架构DianNao（电脑），获得处理器架构领域顶会ASPLOS 2014最佳论文奖，这是亚洲第一次获此殊荣。接着，他们又提出首个多核深度学习处理器学术架构DaDianNao（大电脑），获得处理器架构领域另外一个顶级国际学术会议MICRO 2014最佳论文奖，而这是美国以外的国家第一次获得。

编辑搜图

请点击输入图片描述

2016年，陈天石、陈云霁兄弟创立了中科寒武纪，开启学术转化之路。寒武纪是地球演变中生物大爆发的时期，而在AI时代，他们的寒武纪肩负着引领AI产业大爆发的使命。

2016到2018年，在终端处理器IP上，寒武纪推出了Cambricon-1A/1H/1M，被用到了华为麒麟系列芯片的NPU上。而云端计算卡，推出了MLU 100、思元MLU270等，2年，实现了端和云芯片产品的落地，从算力上看，思源MLU270大幅超越NVIDIA P100。

（3）华为

看AI落地，先看安防，而说起国内AI安防应用芯片，需先从海思安防端计算芯片说起。

2017年底，海思推出了Hi3559AV100，80美金的售价，对应4Tflops的算力，具备16路1080p视频解码能力，AI厂子们玩起了16路人脸识别，也就是单路芯片成本降到了5美金，无论是用于端还是中心，这都是一个极具诱惑力的生意。而NVIDIA的TX2是2Tflops算力,399美金售价，简单粗暴的算，性价比是TX2的10倍，这是一次降维打击，尽管NVIDIA xavier、nano等端计算产品在提升，但性价比上，根本无法和海思抗衡。当某种基础产品价格大幅下降的时候，才是整个产业发生变化的基础，而这个变化，就是让AI普惠化，高昂的价格，从来都是普惠的敌人。

再说云端训练及推理芯片，2018年10月，华为重磅发布昇腾910，单芯片算力吊打NVIDIA V100，集群吊打Google TPU3.0 Pod，到这一步，可以说国产AI芯片已经逆袭，虽然昇腾910的产品化转化、应用生态仍待完善，但AI芯片产业，格局初定。

编辑搜图

请点击输入图片描述

编辑搜图

资料：来源于华为发布会

（4）围剿

如果说华为、寒武纪是主力，那么还有一众援兵，得益于产业快速发展，百度、比特大陆、瑞芯微、依图、平头哥、地平线等等公司的专用AI芯片产品遍地开花，许多AI公司、互联网公司正加码投入AI芯片战斗中，覆盖从云到端、从训练到推理、从安防到智慧城市应用、从B端到C端应用。

AI苦N久矣，旧的AI芯片壁垒已破，国产AI芯片崛起而夺回国内市场、走出海外，这就是一条必然的路。

3.附：关于计算智能

从AI功能上进行划分，个人认为可划分为计算智能、感知智能、认知智能、决策智能。计算智能可以粗略地认为就是计算，包含了硬件计算和软件算法计算，计算智能的提升，既需要半导体的发展，也需要算法的优化支撑，共同形成了AI领域的计算智能。

编辑搜图

AI四分类

2018年安博会，华为推出了iCAN智能指数，模仿智能驾驶，提出了多个智能标准等级。

编辑搜图

iCAN智能指数=f(算力，算法，协同）

来源：华为技术有限公司

编辑搜图

iCAN智能指数（Intelligence Index）=F（算力、算法、数据、场景）

来源：华为技术有限公司

无论是在华为演进的两张iCAN智能指数中，还是在计算智能中，算力是最重要的衡量指标，也是AI的基础。算力可由多个维度来衡量：

（1）性能

可以通过运算速度来衡量，如端侧芯片单颗海思Hi3559A芯片可以提供4TFLOPS算力，这里的TFLOPS是Tera Floating-point operations per second，而这里的算力还需加一个前提，主要分为双精度（FP64）、单精度(FP32)、半精度(FP16)、整型计算(INT8)。因为采用不同位数的浮点数的表达精度不一样，造成的计算误差也不一样，双精度固然好，但在一些应用，比如多媒体和图形处理计算，32位的单精度浮点计算已经足够了，对于要求精度更低的机器学习等一些应用来说，半精度16位浮点数就可以甚至8位浮点数就已经够用了。

（2）密度

可以从AI芯片的工艺角度衡量，如海思Hi3559A芯片采用14nm工艺，昇腾310芯片12nm工艺。NVIDIA V100 采用12nm工艺，昇腾310则仅采用7nm工艺，制作工艺越小，单位面积晶体管数量越多，密度越大。

（3）功耗

功耗是芯片产品关注的重点指标，尤其是端计算芯片，功耗的大小配合电池能力决定了续航能力，从而决定了可解锁场景，功耗也是衡量芯片算力的重要标准，如Hi3559A芯片典型功耗为3w，NVIDIA V100为250w

（4）算力能耗比

性能和能耗的比值越大，说明单位功耗可计算的次数越多，这是倡导绿色AI衡量的重要指标，毕竟有些模型跑一下的碳排放量已经非常不环保了。比如Hi3559A的算力能耗比就达到4T/3w=1.33Tflops/w。

4.附：第一张AI算力天梯图

很多AI从业者一定遇到过对比多款加速卡或者芯片性能的时候，苦于找不到直观简单的资料，类似GPU的天梯图，所以制作了第一张常用芯片/加速卡产品的AI算力天梯图，后续将继续详细和完善。

“围剿”Nvidia，国产AI芯片的崛起之路

推荐阅读更多精彩内容