什么是LLM?
LLM是大语言模型的简写。全称是Large Language Model。
大型语言模型,是一种使用大量文本数据训练的深度学习模型,能够理解和生成自然语言文本。
最重要的是能生成世界上以前没有的文本!
GPT、LLaMA、Mistral等都属于大模型。
总结:使用大量语言文本数据训练出来的模型,具有强大的语言理解和推理能力,能够理解和顺畅的生成自然语言。
对大多数人来说,没有必要单独学习LLM的相关内容,只要学习一下Prompt Engineering(提供工程)就够了。就像一般的Android开发不用关心它的底层是什么原理,只要知道常用的接口就可以。
提示工程也叫做上下文提示,是一种通过不断调整模型参数/权重来引导LLM朝着特定结果发展的一种方法。
LLM中的关键词
模型参数量
模型参数量是指模型中可学习和调整的变量的数量。
参数中存储的是模型的权重和偏差信息。
权重是指模型中不同神经网络层中神经元连接的强度数值,可以理解为词与表述词之间的相关性值。
偏差是指每个神经元的额外参数,帮助神经元在没有输入信号时依然能生成内容。
模型参数量越多,模型能处理的关系越复杂,从而在任务处理生就能得到越好的效果,也需要更多的训练数据和计算资源。
模型参数中所说的10b,13b,70b,中的b指的是billion(十亿)。10b = 100亿个模型参数。
谨记:并不是模型参数量越大模型越优秀,关键还要训练数据和质量。
模型参数量就像数据库中数据表的字段数,字段数越多,对数据的表述就有可能越准确,但是要想越准确就要把这些字段都填写(训练)而且要准确(优质)。
模型参数精度
模型参数精度是指模型参数的数据类型,决定了模型参数在内存中存储计算参数所使用的位数(bit)。
常见的模型参数精度有:
float32,4 Bytes。单精度浮点数(32bit)。
float16,2 Bytes。半精度度浮点数(16bit)。
float64,8 Bytes。双精度度浮点数(64bit)。
int32,int64等。不常见。
越高的精度参数,存储的信息越多,占用的内存越大,运算起来越慢。