3.1 根据输入内容分类
-
语言大模型(NLP):
- 指在自然语言处理(Natural Language Processing, NLP)领域中的一类大模型,通常用于处理文本数据和理解自然语言。这类大模型的主要特点是它们在大规模预料库上进行训练,以学习自然语言的各种语法、语义和语境规则。
- 例如:GPT、Qwen、Bard
-
视觉大模型(CV):
- 指在计算机视觉(Computer Vision,CV)领域中使用的大模型,通常用于图像梳理和分析。这类模型通过在大规模图像数据上进行训练,可以实现各种视觉任务,如图像分类、目标检测、图像分割、姿态设计、人脸识别等。
- 例如:华为盘古CV、文心UFO
-
多模态大模型:
- 指能够处理多种不同类型数据的大模型,例如文本、图像、音频等多模态数据。这类模型结合了NLP和CV的能力,以实现对多模态信息的总和理解和分析,从而能够更全面地理解和处理复杂的数据。
- 例如:DALL-E、Midjourney
3.2 按预训练任务分类
-
自回归语言模型(Autoregressive Language Model):
- 如GPT系列模型,仅通过前文预测下一个词,适合生成任务。
-
自编码语言模型(Autoencoding Language Model):
- 如BERT,通过掩码(masked language modeling)预测被遮挡的词,适合理解和分类任务。
-
序列到序列语言模型(Seq2Seq Language Model):
- 如T5、BART等,既可以生成文本也可以完成理解任务,在机器翻译、文本生成场景中有广泛应用。
3.3 按模型规模分类
-
小规模模型:
- 参数数千万到几亿之间,适合资源有限的设备或边缘计算。GPT-2 small。
-
中等规模模型:
- 参数数几亿到几十亿之间,平衡性能和计算开销。GPT-2 Medium。
-
大规模模型:
- 参数数数百亿到上万亿之间,性能优异单资源去求高,适合需要复杂推理的任务。GPT-3。