tokens
tokens是模型处理文本的基本单位。通常由分词器生成,分词器将一段文本拆分成多个tokens,可以是单词、标点符号、数字、特殊字符或子词。在NLP中,一个 "token" 通常是指文本中的一个元素或单位。
一般情况下,1000 tokens大约对应750个字符(包括标点等字符),大约对应400~500个汉字。
参数量
参数具体体现在模型的复杂性和容量上。在自然语言处理(NLP)和深度学习领域,模型参数是指神经网络中的权重和偏置等可调整的变量,用于训练和优化神经网络的性能,参数的数量决定了模型能够捕捉到的数据中的细节和模式数量。
参数中的“B”通常代表十亿(Billion),参数亮7B、66B分别表示模型大约有70亿个、660亿个参数。
训练数据量
训练数据量是指用于训练机器学习或深度学习模型的数据集的大小。
- 泛化能力:较大的数据集通常包含更多的变化和多样性,这有助于模型学习更通用的表示,从而更好地泛化到未见过的数据。
- 过拟合:当训练数据量较小时,模型可能会过于关注训练数据中的噪声或异常值,导致在测试数据上表现不佳。
- 欠拟合:当训练数据量不足以捕捉数据的复杂性时,模型可能无法学习到数据的真正结构,也会导致性能下降。
上下文长度
自然语言处理(NLP)和深度学习领域,上下文长度通常用于描述模型在生成新的文本或理解输入的语句时,可以处理的最大文本长度。通常是以“token”作为计算单位