GPU（Graphics Processing Unit）

什么是GPU？

显存（VRAM）：GPU配备高速显存，用于存储数据和计算过程中的临时变量，容量从几GB到上百GB不等。

图形和游戏渲染：实时生成高质量的3D图像和视频。
深度学习：加速神经网络的训练与推理，极大缩短计算时间。
科学计算：气象模拟、物理仿真、基因测序等领域。
视频处理：视频编码、转码、特效制作等。
加密货币挖矿：利用GPU强大的计算能力进行哈希计算。

神经网络训练需要大量的矩阵和向量计算，GPU擅长并行处理这些重复计算任务。

GPU显存容量大，可以存储巨大的模型参数和训练数据。

Tensor Cores等硬件加速单元专为深度学习设计，提升性能。

参数	说明	重要程度（深度学习）
显存大小	存放模型和数据，显存越大能跑更大模型或更大batch	⭐⭐⭐⭐⭐
CUDA核心数	并行计算核心数量，越多越好	⭐⭐⭐⭐
Tensor Cores	矩阵乘法专用核心，极大提升深度学习性能	⭐⭐⭐⭐⭐
显存带宽	影响数据传输速度	⭐⭐⭐⭐
浮点性能（TFLOPS）	计算能力指标	⭐⭐⭐⭐
功耗	影响散热和电费	⭐⭐
价格	预算限制	⭐⭐⭐⭐⭐

型号	显存	CUDA核心数	适用场景	大致价格
RTX 4060 / 4070 Ti	8~12GB	3000~7000+	轻量级训练/入门	2500~4000元
RTX 4080 / 4090	16~24GB	9000~16000+	中大型训练、游戏	6000~15000元
NVIDIA A100	40~80GB	6912	大规模训练、企业级	数十万起
Tesla T4	16GB	2560	推理、轻量训练	1万左右
RTX 3090	24GB	10496	大型训练、科研	7000~9000元

显存是首要硬指标，显存不足根本跑不了大模型。

Tensor Core显著提升深度学习训练速度，优先选择带Tensor Core的GPU。

多卡训练时注意PCIe通道和带宽，避免瓶颈。

预算有限时，可以选择上一代高端卡或者二手卡，但风险和保修要考虑。

深度学习框架（PyTorch、TensorFlow）对CUDA版本有要求，注意兼容性。