大模型基础概念简析

tokens

  tokens是模型处理文本的基本单位。通常由分词器生成,分词器将一段文本拆分成多个tokens,可以是单词、标点符号、数字、特殊字符或子词。在NLP中,一个 "token" 通常是指文本中的一个元素或单位。
  一般情况下,1000 tokens大约对应750个字符(包括标点等字符),大约对应400~500个汉字。

参数量

  参数具体体现在模型的复杂性和容量上。在自然语言处理(NLP)和深度学习领域,模型参数是指神经网络中的权重和偏置等可调整的变量,用于训练和优化神经网络的性能,参数的数量决定了模型能够捕捉到的数据中的细节和模式数量。
  参数中的“B”通常代表十亿(Billion),参数亮7B、66B分别表示模型大约有70亿个、660亿个参数。

训练数据量

  训练数据量是指用于训练机器学习或深度学习模型的数据集的大小。

  • 泛化能力:较大的数据集通常包含更多的变化和多样性,这有助于模型学习更通用的表示,从而更好地泛化到未见过的数据。
  • 过拟合:当训练数据量较小时,模型可能会过于关注训练数据中的噪声或异常值,导致在测试数据上表现不佳。
  • 欠拟合:当训练数据量不足以捕捉数据的复杂性时,模型可能无法学习到数据的真正结构,也会导致性能下降。

上下文长度

  自然语言处理(NLP)和深度学习领域,上下文长度通常用于描述模型在生成新的文本或理解输入的语句时,可以处理的最大文本长度。通常是以“token”作为计算单位

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容