# AI 大模型背后的中国显卡力量:从芯片到算力的全方位解析
在人工智能大模型蓬勃发展的当下,算力成为了推动这一领域前进的核心驱动力。而在算力的构建中,显卡作为关键的硬件组成部分,其重要性不言而喻。中国的显卡产业在近年来取得了显著的进展,众多国产显卡厂家纷纷崛起,以创新的技术和卓越的产品,为 AI 大模型的发展提供了坚实的支撑。本文将深入探讨国内外主要显卡厂家及其代表性产品,重点剖析中国显卡在 AI 大模型领域的技术突破、性能优势以及应用前景。
显卡作为计算机硬件中关键的组成部分,其性能对计算机的图形处理能力以及各类应用体验有着决定性影响。随着科技的不断进步,显卡市场也日益繁荣,国内外众多厂家纷纷推出各具特色的产品。下面将对国内外主要显卡厂家及其代表性产品进行详细介绍,并通过表格进行清晰呈现。
## 一、国产显卡厂家
### (一)摩尔线程
成立于 2020 年,专注于全功能 GPU 芯片的设计和研发,创始人团队来自英伟达。成功搭建全国首个全功能 GPU 千卡智算集群,产品迭代了四代芯片。在技术上,摩尔线程通过 MUSIFY 开发工具,可以 0 成本实现将 CUDA 生态迁移至 MUSA 生态,这一技术大大降低了开发人员的开发难度,有助于推动 GPU 在不同应用场景的广泛应用。最新推出的 MTT S4000 采用的是第三代 MUSA 内核,支持多卡互联,显存容量为 48GB,显存带宽达到了 768GB/s,INT8 性能达到了 200TFLOPs,TF32 性能达到了 50TFLOPs,FP32 性能达到了 25TFLOPs,多卡互联后片间互联速度可达 240GB/s ,性能十分强劲。
**S4000**:搭载最新一代 GPU 架构,采用高效制程工艺,算力超越 NVIDIA GeForce RTX 4060 Ti,具备高达 12 TFLOPs 的浮点运算能力,支持光线追踪、DLSS 等技术。
**MTT X300**:基于第二代 MUSA 架构 “春晓” GPU 核心,拥有 4096 个 MUSA 流处理单元,FP32 算力 14.4TFLOPS。配备 16GB GDDR6 显存,256bit 位宽,448GB/s 总带宽,接口丰富,支持多种操作系统和主流图形 API。
### (二)寒武纪
成立于 2016 年,专注于人工智能芯片产品的研发与技术创新,致力于打造人工智能领域的核心处理器芯片,产品广泛应用于服务器厂商和产业公司,面向多个领域的复杂 AI 应用场景提供充裕算力。在芯片技术上,寒武纪不断创新,采用先进的制程工艺和架构设计。
**思元 370**:基于 7nm 制程工艺,是首款采用 chiplet(芯粒)技术的 AI 芯片,集成 390 亿个晶体管,最大算力高达 256tops(int8)。支持 LPDDR5 内存,内存带宽是上一代的 3 倍,访存能效达 GDDR6 的 1.5 倍,搭载 MLU-link™多芯互联技术,在芯片的集成度和算力方面表现出色。
**思元 270**:采用寒武纪 MLUV02 架构,集成一系列创新性技术,处理非稀疏人工智能模型理论峰值性能达 128tops(int8),兼容 int4 和 int16 运算,支持浮点运算和混合精度运算,为视觉应用集成充裕的视频和图像编解码硬件单元,在多种运算场景下都能发挥良好的性能。
### (三)华为昇腾
华为旗下专注于 AI 芯片研发的部门,在 AI 计算领域有深厚技术积累和广泛应用,为多个领域提供强大的 AI 算力支持。凭借华为在通信和计算领域的技术沉淀,昇腾系列芯片在不同场景下都能提供稳定且高效的算力服务。
**昇腾 910**:专为 AI 计算设计,适用于数据中心,具备强大算力和优秀性能,可满足大规模深度学习训练等任务需求,在数据中心的大规模计算任务中发挥着重要作用。
**昇腾 310**:适用于边缘计算场景,在智能安防、智能交通等领域广泛应用,能够高效进行 AI 推理任务,为边缘计算设备提供了强大的算力支持。
### (四)比特大陆
成立于 2013 年,专注于人工智能芯片设计和研发,在比特币矿机芯片领域有较高知名度。在芯片设计和算力方面具备一定的技术优势。
**Sophon BM1684**:采用 12nm 工艺制程,拥有八核 ARM Cortex - A53,主频 2.3GHz。拥有 17.6TOPS(INT8)、2.2TOPS(FP32)、35.2TOPS(INT8,启用 winograd)算力,支持主流编程框架,最高支持 32 路 1080P H.265/H.264 的视频解码,2 路 1080P H.265/H.264 视频编码,在视频处理和算力方面有着不错的表现。
### (五)中科曙光
国内高性能计算领域的领军企业,其 DCU 系列产品为数据中心提供强大的算力支持。在高性能计算技术方面,中科曙光不断突破,为数据中心的高效运行提供保障。
**DCU 系列**:适用于数据中心的高性能计算任务,具体参数因不同型号而异,在数据中心的复杂计算场景中发挥着重要作用。
### (六)景嘉微
成立于 2006 年,专注于 GPU 芯片研发和产业化,产品涵盖图形显控、小型专业化雷达和芯片等领域,在军工市场有广泛应用,同时积极拓展民用市场。在图形渲染和并行计算技术上不断探索,以满足不同市场的需求。
**JM5400**:专注于高效的图形渲染和并行计算能力,为国内首款低功耗 GPU 芯片,在性能和能耗之间取得良好平衡,主要支撑军用装备,也在积极开拓民用市场。
**JM7200**:包括 JM7200 和 JM7201 两个型号,已在国内众多领域实现规模应用,适用于桌面办公、图形工作站及有高要求的图形生成及显示等领域,在图形处理方面具备一定的优势。
### (七)壁仞科技
成立于 2019 年,专注于原创性通用计算体系的研发,致力于构建高效的软硬件平台,并在智能计算领域提供一体化解决方案。在芯片制程和算力方面取得了显著的突破。
**BR100**:采用 7 纳米制程工艺,面积超过 1000 平方毫米,集成 770 亿个晶体管。16 位浮点算力达到 1000t 以上、8 位定点算力达到 2000t 以上,单芯片峰值算力达到 pflops 级别,创下全球算力纪录,多项指标媲美甚至超越国际旗舰产品,在算力方面表现极为出色。
### (八)燧原科技
成立于 2018 年,是国内第一家同时拥有高性能云端训练和云端推理产品的创业公司,专注于人工智能领域的云端算力平台。在云端算力技术上不断创新,为人工智能应用提供有力支持。
**云燧 T20**:基于邃思 ®2.0 芯片打造,具有模型覆盖面广、性能强、软件生态开放等特点,可支持多种人工智能训练场景,具备灵活的可扩展性,提供业界领先的人工智能算力集群方案,在人工智能训练方面有着出色的表现。
**云燧 i20**:基于邃思 ®2.5 芯片打造,具有高性能高能效、模型覆盖面广、易部署易运维等特点,可广泛应用于计算机视觉、语音识别与合成、自然语言处理、搜索与推荐等推理场景,在推理场景的应用中具有优势。
### (九)沐曦科技
成立于 2020 年,专注于研发异构计算的 GPU 芯片,产品采用自主研发的 GPU IP,拥有完全自主的指令集和架构。在异构计算和软件栈技术上有着自己的特色。
**曦思 N100**:适用于人工智能推理场景,具备高效能和强大的视频处理能力,配备沐曦自主研发的 MXMACA 软件栈,支持多种主流框架和软件生态,可广泛应用于智能视频监控、智慧城市和智能安防等领域,在人工智能推理和视频处理方面表现突出。
**曦云 C500**:具有强大的计算性能和存储带宽,配备沐曦自研的 MetaXLink 高速接口,适用于大模型的训练任务,支持多种 AI 框架,可满足复杂模型的高性能计算需求,在大模型训练方面具有优势。
### (十)海光
成立于 2014 年,以高端 CPU、通用 GPU 等计算机芯片产品和系统研发、销售为主营业务,目标是成为中国最重要的计算机芯片设计企业。在芯片架构和性能提升方面不断努力。
**深算一号**:以 GPGPU 架构为基础,内置大量运算核心,具有较强的并行计算能力和较高的能效比,具备全精度浮点数据和各种常见整型数据计算能力,典型应用场景下性能指标可以达到国际同类型高端产品的同期水平,已于 2021 年年底实现商业化应用。
**深算二号**:单芯片训练性能达到 254TOPS,推理性能达到 515TOPS,性能相对于深算一号实现翻倍增长,支持多种深度学习框架和算法,采用了先进的制程工艺和架构设计,在能效比和性能上都有一定优势,于 2023 年下半年发布并实现商用。
**深算三号**:在 FP32(单精度浮点运算)模式下,峰值算力为 49TFLOPS;在 TF32(混合精度浮点运算)模式下,峰值算力为 96TFLOPS;在 BF16/FP16(半精度浮点运算)模式下,峰值算力为 192TFLOPS;在 INT8(整数 8 位运算)模式下,峰值算力为 392TFLOPS。研发进展顺利,在不同运算模式下都展现出了较高的算力水平。
### (十一)芯动科技
芯动科技的 “风华 1 号” 是首款国产高性能 4K 级显卡 GPU 芯片。在技术上,“风华 1 号” 亮点众多。3D 图形渲染处理管线定制优化,单芯片 A 卡渲染能力达到 160GPixel / 秒,FP32 浮点性能达到 5T FLOPS,集渲染 + 低延迟编解码 + AI 计算于一体,AI 性能为 25TOPS (INT8)。它支持 Linux / 龙芯 / Windows / 安卓操作系统图形框架,同时支持 4 路 4K@60、16 路 1080P@60fps 或 32 路 720P@30fps。芯片支持 32 路 SRIOV 虚拟化,内置中国专利的物理不可克隆 PUF 技术,保护信息安全。显存技术采用全球领先的 GDDR6/GDDR6X Combo 自研技术,单比特最大传输速率达到 19Gbps,显存带宽最高可达 304GB/s,显存容量最大可扩展至 16GB。主机接口支持 PCIe4.0X16,且向下兼容 PCIe3.0/2.0X8。视频输出接口方面,配置自研 HDMI2.1/DP1.4/VGA 等超高清接口,支持多路独立输出。此外,“风华 1 号” 还首次成功实施了中国自主标准的 Innolink Chiplet 多晶粒技术,通过 Innolink chiplet 扩展,“风华 1 号” GPU 显卡服务器用 B 卡,在 A 卡基础上直接性能翻倍,渲染能力达到 320GPixel / 秒,FP32 浮点性能达到 10T FLOPS,同时支持 32 路 1080P@60fps 和 64 路 720P@30fps 强渲染 + 低延迟编解码 + AI 计算,显存达到 32GB。
## 二、国外显卡厂家
### (一)NVIDIA(英伟达)
全球领先的图形处理器(GPU)制造商,在游戏、专业图形处理、深度学习等领域应用广泛,显卡以性能强劲、技术领先著称。英伟达在图形处理和人工智能计算领域的技术实力雄厚,拥有众多先进的技术。1999 年发明了图形处理器 GPU,推出了 CUDA 并行计算平台,使得开发者能够利用 GPU 的并行计算能力加速各种计算任务,在科学计算、深度学习等领域得到了广泛应用。2016 年推出的 PASCAL GPU 架构、2017 年推出的深入 AI 学习的 VOLTA GPU 架构等,不断推动着 GPU 技术的发展。2023 年 11 月发布的新一代人工智能 (AI) 芯片 H200,更是在人工智能计算领域有着重要的意义。英伟达于 2024 年发布的 RTX 50 系列显卡,堪称其产品序列中的又一里程碑。该系列显卡在多个关键技术指标上实现了显著的提升,相较于之前发布的 RTX 40 系列显卡,进步明显。以 RTX 5090 为例,它采用了更为先进的制程工艺,在芯片集成度和功耗控制方面取得了巨大的突破。RTX 5090 的核心频率大幅提升,配合新一代的显存技术,显存带宽得到了显著增强,这使得其在处理高分辨率、高帧率游戏时,能够提供更加流畅、稳定的画面表现,大幅降低了游戏中的卡顿现象。在光线追踪技术上,RTX 50 系列显卡进行了升级,能够实现更为逼真的光影效果,在游戏场景中营造出更加真实的环境氛围,为玩家带来身临其境的游戏体验。同时,DLSS(深度学习超级采样)技术也在 RTX 50 系列中得到了进一步优化,不仅提升了图像的清晰度和细节表现,还能在保持高画质的前提下,显著提高游戏的帧率,使得玩家在享受高质量画面的同时,也能获得出色的游戏性能。与 RTX 40 系列相比,RTX 50 系列在相同功耗下能够提供更高的算力,进一步提升了能源利用效率,这对于追求高性能和低功耗的用户来说,具有极大的吸引力。
**GeForce RTX 4060 Ti**:拥有先进的光线追踪技术,在游戏中能够提供出色的图形处理能力和光追效果,为玩家带来更加逼真的游戏画面体验。
**GeForce RTX 4090Ti**:作为 40 系旗舰级产品,采用了更为先进的 Ada Lovelace 架构,具备极高的 CUDA 核心数量,搭配 24GB GDDR6X 显存,显存带宽高达 1008GB/s,拥有超强的图形渲染能力,无论是 4K 分辨率下的 3A 大作,还是复杂的光线追踪场景,都能轻松应对,为玩家带来极致的视觉体验。
**GeForce RTX 50 系列**:堪称英伟达产品序列中的又一里程碑。以 RTX 5090 为例,它采用了更为先进的制程工艺,在芯片集成度和功耗控制方面取得了巨大的突破。RTX 5090 的核心频率大幅提升,配合新一代的显存技术,显存带宽得到了显著增强,这使得其在处理高分辨率、高帧率游戏时,能够提供更加流畅、稳定的画面表现,大幅降低了游戏中的卡顿现象。在光线追踪技术上,RTX 50 系列显卡进行了升级,能够实现更为逼真的光影效果,在游戏场景中营造出更加真实的环境氛围,为玩家带来身临其境的游戏体验。同时,DLSS(深度学习超级采样)技术也在 RTX 50 系列中得到了进一步优化,不仅提升了图像的清晰度和细节表现,还能在保持高画质的前提下,显著提高游戏的帧率,使得玩家在享受高质量画面的同时,也能获得出色的游戏性能。与 RTX 40 系列相比,RTX 50 系列在相同功耗下能够提供更高的算力,进一步提升了能源利用效率,这对于追求高性能和低功耗的用户来说,具有极大的吸引力。
### (二)AMD(超威半导体)
重要的显卡制造商,产品线覆盖入门级到高端,在多屏输出和高清视频处理方面表现出色,近年来技术创新加速。AMD 在显卡架构和多屏技术方面有着独特的优势,不断提升显卡在多屏输出和高清视频处理场景下的性能表现。
**Radeon RX 6000 系列**:与 NVIDIA 显卡在市场上形成竞争态势,在某些性能指标上有优势,为用户提供了更多的选择。
### (三)华硕(ASUS)
全球知名电脑硬件制造商,显卡以稳定性、耐用性和出色性能闻名,产品线广泛。华硕在散热设计和超频技术方面有着深入的研究,其 ROG 系列显卡的散热设计和超频能力出色,能够为硬核玩家提供稳定且高性能的游戏体验。
**ROG 系列**:散热设计和超频能力出色,是硬核玩家首选。
### (四)技嘉(GIGABYTE)
专注电脑硬件生产,显卡做工精细、性能稳定。技嘉的 AORUS 系列将可视化与性能结合,还有 RGB 灯效,不仅在性能上表现出色,还在外观设计上满足了年轻玩家对于个性化的需求。
**AORUS 系列**:将可视化与性能结合,还有 RGB 灯效,深受年轻玩家喜爱。
### (五)微星(MSI)
全球前三大主板厂商和显卡生产商之一,显卡性能卓越、散热效果好。微星的 Gaming X 系列以良好散热和安静运作赢得用户青睐,并且积极参与全球电竞活动,在电竞领域有着较高的知名度。
**Gaming X 系列**:以良好散热和安静运作赢得用户青睐,积极参与全球电竞活动。
### (六)影驰(GALAXY)
香港嘉威科技旗下品牌,以中高端市场为主,性能和品质得到用户认可,广泛应用于游戏、图形设计等领域。在中高端显卡市场有一定份额,产品表现稳定,在显存技术和散热设计等方面不断优化,以满足用户对于性能和稳定性的需求。
### (七)蓝宝石(SAPPHIRE)
全球知名显卡生产商,源自香港,拥有全球领先的视频图形加速器设计、生产和销售能力,产品线覆盖 AMD 全系列显卡。在 AMD 显卡领域有深厚积累,产品质量可靠,在显卡的制造工艺和质量控制方面有着严格的标准。
### (八)索泰(ZOTAC)
香港栢能科技集团旗下品牌,专注电脑 3D 显示卡、主板以及迷你电脑整机的研发、生产和销售。显卡以高性能、低功耗和稳定性受到好评,在芯片的优化和散热设计上有着自己的技术优势。
### (九)迪兰(Dataland)
世界著名的显示芯片生产商 ATI 的首席合作商,国内主要的图形显示卡供应商之一。产品品质优良,商业信誉卓著,在显卡的品质把控和技术支持方面有着良好的口碑。
## 三、国产显卡厂家信息表格
| 序号 | 厂家名称 |
| -- | ---- |
| 1 | 摩尔线程 |
| 2 | 寒武纪 |
| 3 | 华为昇腾 |
| 4 | 比特大陆 |
| 5 | 中科曙光 |
| 6 | 景嘉微 |
| 7 | 壁仞科技 |
| 8 | 燧原科技 |
| 9 | 沐曦科技 |
| 10 | 海光 |
| 11 | 芯动科技 |