AI 大模型背后的中国显卡力量：从芯片到算力的全方位解析

# AI 大模型背后的中国显卡力量：从芯片到算力的全方位解析

在人工智能大模型蓬勃发展的当下，算力成为了推动这一领域前进的核心驱动力。而在算力的构建中，显卡作为关键的硬件组成部分，其重要性不言而喻。中国的显卡产业在近年来取得了显著的进展，众多国产显卡厂家纷纷崛起，以创新的技术和卓越的产品，为 AI 大模型的发展提供了坚实的支撑。本文将深入探讨国内外主要显卡厂家及其代表性产品，重点剖析中国显卡在 AI 大模型领域的技术突破、性能优势以及应用前景。

显卡作为计算机硬件中关键的组成部分，其性能对计算机的图形处理能力以及各类应用体验有着决定性影响。随着科技的不断进步，显卡市场也日益繁荣，国内外众多厂家纷纷推出各具特色的产品。下面将对国内外主要显卡厂家及其代表性产品进行详细介绍，并通过表格进行清晰呈现。

## 一、国产显卡厂家

### （一）摩尔线程

成立于 2020 年，专注于全功能 GPU 芯片的设计和研发，创始人团队来自英伟达。成功搭建全国首个全功能 GPU 千卡智算集群，产品迭代了四代芯片。在技术上，摩尔线程通过 MUSIFY 开发工具，可以 0 成本实现将 CUDA 生态迁移至 MUSA 生态，这一技术大大降低了开发人员的开发难度，有助于推动 GPU 在不同应用场景的广泛应用。最新推出的 MTT S4000 采用的是第三代 MUSA 内核，支持多卡互联，显存容量为 48GB，显存带宽达到了 768GB/s，INT8 性能达到了 200TFLOPs，TF32 性能达到了 50TFLOPs，FP32 性能达到了 25TFLOPs，多卡互联后片间互联速度可达 240GB/s ，性能十分强劲。

**S4000**：搭载最新一代 GPU 架构，采用高效制程工艺，算力超越 NVIDIA GeForce RTX 4060 Ti，具备高达 12 TFLOPs 的浮点运算能力，支持光线追踪、DLSS 等技术。

**MTT X300**：基于第二代 MUSA 架构 “春晓” GPU 核心，拥有 4096 个 MUSA 流处理单元，FP32 算力 14.4TFLOPS。配备 16GB GDDR6 显存，256bit 位宽，448GB/s 总带宽，接口丰富，支持多种操作系统和主流图形 API。

### （二）寒武纪

成立于 2016 年，专注于人工智能芯片产品的研发与技术创新，致力于打造人工智能领域的核心处理器芯片，产品广泛应用于服务器厂商和产业公司，面向多个领域的复杂 AI 应用场景提供充裕算力。在芯片技术上，寒武纪不断创新，采用先进的制程工艺和架构设计。

**思元 370**：基于 7nm 制程工艺，是首款采用 chiplet（芯粒）技术的 AI 芯片，集成 390 亿个晶体管，最大算力高达 256tops（int8）。支持 LPDDR5 内存，内存带宽是上一代的 3 倍，访存能效达 GDDR6 的 1.5 倍，搭载 MLU-link™多芯互联技术，在芯片的集成度和算力方面表现出色。

**思元 270**：采用寒武纪 MLUV02 架构，集成一系列创新性技术，处理非稀疏人工智能模型理论峰值性能达 128tops（int8），兼容 int4 和 int16 运算，支持浮点运算和混合精度运算，为视觉应用集成充裕的视频和图像编解码硬件单元，在多种运算场景下都能发挥良好的性能。

### （三）华为昇腾

华为旗下专注于 AI 芯片研发的部门，在 AI 计算领域有深厚技术积累和广泛应用，为多个领域提供强大的 AI 算力支持。凭借华为在通信和计算领域的技术沉淀，昇腾系列芯片在不同场景下都能提供稳定且高效的算力服务。

**昇腾 910**：专为 AI 计算设计，适用于数据中心，具备强大算力和优秀性能，可满足大规模深度学习训练等任务需求，在数据中心的大规模计算任务中发挥着重要作用。

**昇腾 310**：适用于边缘计算场景，在智能安防、智能交通等领域广泛应用，能够高效进行 AI 推理任务，为边缘计算设备提供了强大的算力支持。

### （四）比特大陆

成立于 2013 年，专注于人工智能芯片设计和研发，在比特币矿机芯片领域有较高知名度。在芯片设计和算力方面具备一定的技术优势。

**Sophon BM1684**：采用 12nm 工艺制程，拥有八核 ARM Cortex - A53，主频 2.3GHz。拥有 17.6TOPS（INT8）、2.2TOPS（FP32）、35.2TOPS（INT8，启用 winograd）算力，支持主流编程框架，最高支持 32 路 1080P H.265/H.264 的视频解码，2 路 1080P H.265/H.264 视频编码，在视频处理和算力方面有着不错的表现。

### （五）中科曙光

国内高性能计算领域的领军企业，其 DCU 系列产品为数据中心提供强大的算力支持。在高性能计算技术方面，中科曙光不断突破，为数据中心的高效运行提供保障。

**DCU 系列**：适用于数据中心的高性能计算任务，具体参数因不同型号而异，在数据中心的复杂计算场景中发挥着重要作用。

### （六）景嘉微

成立于 2006 年，专注于 GPU 芯片研发和产业化，产品涵盖图形显控、小型专业化雷达和芯片等领域，在军工市场有广泛应用，同时积极拓展民用市场。在图形渲染和并行计算技术上不断探索，以满足不同市场的需求。

**JM5400**：专注于高效的图形渲染和并行计算能力，为国内首款低功耗 GPU 芯片，在性能和能耗之间取得良好平衡，主要支撑军用装备，也在积极开拓民用市场。

**JM7200**：包括 JM7200 和 JM7201 两个型号，已在国内众多领域实现规模应用，适用于桌面办公、图形工作站及有高要求的图形生成及显示等领域，在图形处理方面具备一定的优势。

### （七）壁仞科技

成立于 2019 年，专注于原创性通用计算体系的研发，致力于构建高效的软硬件平台，并在智能计算领域提供一体化解决方案。在芯片制程和算力方面取得了显著的突破。

**BR100**：采用 7 纳米制程工艺，面积超过 1000 平方毫米，集成 770 亿个晶体管。16 位浮点算力达到 1000t 以上、8 位定点算力达到 2000t 以上，单芯片峰值算力达到 pflops 级别，创下全球算力纪录，多项指标媲美甚至超越国际旗舰产品，在算力方面表现极为出色。

### （八）燧原科技

成立于 2018 年，是国内第一家同时拥有高性能云端训练和云端推理产品的创业公司，专注于人工智能领域的云端算力平台。在云端算力技术上不断创新，为人工智能应用提供有力支持。

**云燧 T20**：基于邃思 ®2.0 芯片打造，具有模型覆盖面广、性能强、软件生态开放等特点，可支持多种人工智能训练场景，具备灵活的可扩展性，提供业界领先的人工智能算力集群方案，在人工智能训练方面有着出色的表现。

**云燧 i20**：基于邃思 ®2.5 芯片打造，具有高性能高能效、模型覆盖面广、易部署易运维等特点，可广泛应用于计算机视觉、语音识别与合成、自然语言处理、搜索与推荐等推理场景，在推理场景的应用中具有优势。

### （九）沐曦科技

成立于 2020 年，专注于研发异构计算的 GPU 芯片，产品采用自主研发的 GPU IP，拥有完全自主的指令集和架构。在异构计算和软件栈技术上有着自己的特色。

**曦思 N100**：适用于人工智能推理场景，具备高效能和强大的视频处理能力，配备沐曦自主研发的 MXMACA 软件栈，支持多种主流框架和软件生态，可广泛应用于智能视频监控、智慧城市和智能安防等领域，在人工智能推理和视频处理方面表现突出。

**曦云 C500**：具有强大的计算性能和存储带宽，配备沐曦自研的 MetaXLink 高速接口，适用于大模型的训练任务，支持多种 AI 框架，可满足复杂模型的高性能计算需求，在大模型训练方面具有优势。

### （十）海光

成立于 2014 年，以高端 CPU、通用 GPU 等计算机芯片产品和系统研发、销售为主营业务，目标是成为中国最重要的计算机芯片设计企业。在芯片架构和性能提升方面不断努力。

**深算一号**：以 GPGPU 架构为基础，内置大量运算核心，具有较强的并行计算能力和较高的能效比，具备全精度浮点数据和各种常见整型数据计算能力，典型应用场景下性能指标可以达到国际同类型高端产品的同期水平，已于 2021 年年底实现商业化应用。

**深算二号**：单芯片训练性能达到 254TOPS，推理性能达到 515TOPS，性能相对于深算一号实现翻倍增长，支持多种深度学习框架和算法，采用了先进的制程工艺和架构设计，在能效比和性能上都有一定优势，于 2023 年下半年发布并实现商用。

**深算三号**：在 FP32（单精度浮点运算）模式下，峰值算力为 49TFLOPS；在 TF32（混合精度浮点运算）模式下，峰值算力为 96TFLOPS；在 BF16/FP16（半精度浮点运算）模式下，峰值算力为 192TFLOPS；在 INT8（整数 8 位运算）模式下，峰值算力为 392TFLOPS。研发进展顺利，在不同运算模式下都展现出了较高的算力水平。

### （十一）芯动科技

芯动科技的 “风华 1 号” 是首款国产高性能 4K 级显卡 GPU 芯片。在技术上，“风华 1 号” 亮点众多。3D 图形渲染处理管线定制优化，单芯片 A 卡渲染能力达到 160GPixel / 秒，FP32 浮点性能达到 5T FLOPS，集渲染 + 低延迟编解码 + AI 计算于一体，AI 性能为 25TOPS (INT8)。它支持 Linux / 龙芯 / Windows / 安卓操作系统图形框架，同时支持 4 路 4K@60、16 路 1080P@60fps 或 32 路 720P@30fps。芯片支持 32 路 SRIOV 虚拟化，内置中国专利的物理不可克隆 PUF 技术，保护信息安全。显存技术采用全球领先的 GDDR6/GDDR6X Combo 自研技术，单比特最大传输速率达到 19Gbps，显存带宽最高可达 304GB/s，显存容量最大可扩展至 16GB。主机接口支持 PCIe4.0X16，且向下兼容 PCIe3.0/2.0X8。视频输出接口方面，配置自研 HDMI2.1/DP1.4/VGA 等超高清接口，支持多路独立输出。此外，“风华 1 号” 还首次成功实施了中国自主标准的 Innolink Chiplet 多晶粒技术，通过 Innolink chiplet 扩展，“风华 1 号” GPU 显卡服务器用 B 卡，在 A 卡基础上直接性能翻倍，渲染能力达到 320GPixel / 秒，FP32 浮点性能达到 10T FLOPS，同时支持 32 路 1080P@60fps 和 64 路 720P@30fps 强渲染 + 低延迟编解码 + AI 计算，显存达到 32GB。

## 二、国外显卡厂家

### （一）NVIDIA（英伟达）

全球领先的图形处理器（GPU）制造商，在游戏、专业图形处理、深度学习等领域应用广泛，显卡以性能强劲、技术领先著称。英伟达在图形处理和人工智能计算领域的技术实力雄厚，拥有众多先进的技术。1999 年发明了图形处理器 GPU，推出了 CUDA 并行计算平台，使得开发者能够利用 GPU 的并行计算能力加速各种计算任务，在科学计算、深度学习等领域得到了广泛应用。2016 年推出的 PASCAL GPU 架构、2017 年推出的深入 AI 学习的 VOLTA GPU 架构等，不断推动着 GPU 技术的发展。2023 年 11 月发布的新一代人工智能 (AI) 芯片 H200，更是在人工智能计算领域有着重要的意义。英伟达于 2024 年发布的 RTX 50 系列显卡，堪称其产品序列中的又一里程碑。该系列显卡在多个关键技术指标上实现了显著的提升，相较于之前发布的 RTX 40 系列显卡，进步明显。以 RTX 5090 为例，它采用了更为先进的制程工艺，在芯片集成度和功耗控制方面取得了巨大的突破。RTX 5090 的核心频率大幅提升，配合新一代的显存技术，显存带宽得到了显著增强，这使得其在处理高分辨率、高帧率游戏时，能够提供更加流畅、稳定的画面表现，大幅降低了游戏中的卡顿现象。在光线追踪技术上，RTX 50 系列显卡进行了升级，能够实现更为逼真的光影效果，在游戏场景中营造出更加真实的环境氛围，为玩家带来身临其境的游戏体验。同时，DLSS（深度学习超级采样）技术也在 RTX 50 系列中得到了进一步优化，不仅提升了图像的清晰度和细节表现，还能在保持高画质的前提下，显著提高游戏的帧率，使得玩家在享受高质量画面的同时，也能获得出色的游戏性能。与 RTX 40 系列相比，RTX 50 系列在相同功耗下能够提供更高的算力，进一步提升了能源利用效率，这对于追求高性能和低功耗的用户来说，具有极大的吸引力。

**GeForce RTX 4060 Ti**：拥有先进的光线追踪技术，在游戏中能够提供出色的图形处理能力和光追效果，为玩家带来更加逼真的游戏画面体验。

**GeForce RTX 4090Ti**：作为 40 系旗舰级产品，采用了更为先进的 Ada Lovelace 架构，具备极高的 CUDA 核心数量，搭配 24GB GDDR6X 显存，显存带宽高达 1008GB/s，拥有超强的图形渲染能力，无论是 4K 分辨率下的 3A 大作，还是复杂的光线追踪场景，都能轻松应对，为玩家带来极致的视觉体验。

**GeForce RTX 50 系列**：堪称英伟达产品序列中的又一里程碑。以 RTX 5090 为例，它采用了更为先进的制程工艺，在芯片集成度和功耗控制方面取得了巨大的突破。RTX 5090 的核心频率大幅提升，配合新一代的显存技术，显存带宽得到了显著增强，这使得其在处理高分辨率、高帧率游戏时，能够提供更加流畅、稳定的画面表现，大幅降低了游戏中的卡顿现象。在光线追踪技术上，RTX 50 系列显卡进行了升级，能够实现更为逼真的光影效果，在游戏场景中营造出更加真实的环境氛围，为玩家带来身临其境的游戏体验。同时，DLSS（深度学习超级采样）技术也在 RTX 50 系列中得到了进一步优化，不仅提升了图像的清晰度和细节表现，还能在保持高画质的前提下，显著提高游戏的帧率，使得玩家在享受高质量画面的同时，也能获得出色的游戏性能。与 RTX 40 系列相比，RTX 50 系列在相同功耗下能够提供更高的算力，进一步提升了能源利用效率，这对于追求高性能和低功耗的用户来说，具有极大的吸引力。

### （二）AMD（超威半导体）

重要的显卡制造商，产品线覆盖入门级到高端，在多屏输出和高清视频处理方面表现出色，近年来技术创新加速。AMD 在显卡架构和多屏技术方面有着独特的优势，不断提升显卡在多屏输出和高清视频处理场景下的性能表现。

**Radeon RX 6000 系列**：与 NVIDIA 显卡在市场上形成竞争态势，在某些性能指标上有优势，为用户提供了更多的选择。

### （三）华硕（ASUS）

全球知名电脑硬件制造商，显卡以稳定性、耐用性和出色性能闻名，产品线广泛。华硕在散热设计和超频技术方面有着深入的研究，其 ROG 系列显卡的散热设计和超频能力出色，能够为硬核玩家提供稳定且高性能的游戏体验。

**ROG 系列**：散热设计和超频能力出色，是硬核玩家首选。

### （四）技嘉（GIGABYTE）

专注电脑硬件生产，显卡做工精细、性能稳定。技嘉的 AORUS 系列将可视化与性能结合，还有 RGB 灯效，不仅在性能上表现出色，还在外观设计上满足了年轻玩家对于个性化的需求。

**AORUS 系列**：将可视化与性能结合，还有 RGB 灯效，深受年轻玩家喜爱。

### （五）微星（MSI）

全球前三大主板厂商和显卡生产商之一，显卡性能卓越、散热效果好。微星的 Gaming X 系列以良好散热和安静运作赢得用户青睐，并且积极参与全球电竞活动，在电竞领域有着较高的知名度。

**Gaming X 系列**：以良好散热和安静运作赢得用户青睐，积极参与全球电竞活动。

### （六）影驰（GALAXY）

香港嘉威科技旗下品牌，以中高端市场为主，性能和品质得到用户认可，广泛应用于游戏、图形设计等领域。在中高端显卡市场有一定份额，产品表现稳定，在显存技术和散热设计等方面不断优化，以满足用户对于性能和稳定性的需求。

### （七）蓝宝石（SAPPHIRE）

全球知名显卡生产商，源自香港，拥有全球领先的视频图形加速器设计、生产和销售能力，产品线覆盖 AMD 全系列显卡。在 AMD 显卡领域有深厚积累，产品质量可靠，在显卡的制造工艺和质量控制方面有着严格的标准。

### （八）索泰（ZOTAC）

香港栢能科技集团旗下品牌，专注电脑 3D 显示卡、主板以及迷你电脑整机的研发、生产和销售。显卡以高性能、低功耗和稳定性受到好评，在芯片的优化和散热设计上有着自己的技术优势。

### （九）迪兰（Dataland）

世界著名的显示芯片生产商 ATI 的首席合作商，国内主要的图形显示卡供应商之一。产品品质优良，商业信誉卓著，在显卡的品质把控和技术支持方面有着良好的口碑。

## 三、国产显卡厂家信息表格

| 序号 | 厂家名称 |

| -- | ---- |

| 1 | 摩尔线程 |

| 2 | 寒武纪 |

| 3 | 华为昇腾 |

| 4 | 比特大陆 |

| 5 | 中科曙光 |

| 6 | 景嘉微 |

| 7 | 壁仞科技 |

| 8 | 燧原科技 |

| 9 | 沐曦科技 |

| 10 | 海光 |

| 11 | 芯动科技 |

AI 大模型背后的中国显卡力量：从芯片到算力的全方位解析

推荐阅读更多精彩内容