240 发简信
IP属地:上海
  • Resize,w 360,h 240
    GPT1论文精读

    Abstract 自然语言理解包括各种不同的下游任务。尽管大型未标记的文本语料库很丰富,但用于学习这些特定任务的标号数据很少,这使得训练分辨(判...

  • Resize,w 360,h 240
    BERT论文精读

    Abstract BERT是通过对所有层中的左右上下文进行联合调节,从未标记的文本中预训练深度双向表示。大家可以只需要一个额外的输出层来进行微调...

  • Resize,w 360,h 240
    模型参数的大小的计算方式

    拿BERT为例L= 12, H = 768 embedding = 30000 * H transformer块:包括自注意力机制和MLP2.1...

  • Resize,w 360,h 240
    llms-from-scratch--attention mechanism 详解代码计算

    1.1 长序列建模的问题 由于源语和目的语语法结构的差异,逐字翻译文本是不可行的 在引入transformer之前,encoder-decode...

    0.2 30 0 1
  • Resize,w 360,h 240
    什么是generative AI -- 李宏毅

    生成式人工智能:机器产生复杂有结构的物件。 模型: 是带有大量未知参数的函数机器学习的学习,就是找到这个大量未知参数的过程,也叫training...

  • Resize,w 360,h 240
    Transformer论文精读

    1 Introduction 目前最新的方法是RNN,包括LSTM、GRU等等,主要是语言模型和encoder-decoder两类。 RNN的特...

  • batchnorm 和 layer norm的区别

    BatchNorm一般用于CV领域,而LayerNorm一般用于NLP领域。 batchnorm 是对一个batch,所有样本的某一个特征进行标...

  • http常用请求方式

    最常用的四种请求方式是get, post, put, delete. 序号方法描述1GET从服务器获取资源。用于请求数据而不对数据进行更改。例如...

  • fastAPI

    1 环境变量 1.1 临时添加环境变量 1.2 PATH 环境变量 有一个特殊的环境变量称为 PATH,操作系统(Linux、macOS、Win...