240 发简信
IP属地:浙江
  • nezha论文解析

    NEZHA Abstract 主要核心创新点:1.函数式相关性位置编码 2.全词mask策略 3.混合预测训练 4.LAMB优化器 1 Introduction google...

  • 2022-02-18

    RoFormer: Enhanced Transformer with Rotary Position Embedding [TOC] 前言 谈谈位置编码 在“attenti...

  • 120
    ALBERT 论文翻译和阅读笔记

    Abstract 在预训练无言模型中,增加网络参数的规模能带来在下游任务的性能的提升,但是随着参数量的增加,会带来一些困难:GPU内存的限制和训练时间长的问题。 本文提出两种...

  • 2021-12-03

    Overview BERT是一个具有绝对位置嵌入的模型,因此通常建议将输入在右侧进行pad,而不是左侧 bert被训练在MLM和NSP目标,有效预测masked token ...

  • 答主是不是写错了啊,roberta的动态掩码不是这样的,你说的这种复制十份依然属于静态mask,只不过是改良版的静态mask

  • 2021-11-16

    ImageNet Classification with Deep Convolutional Neural Networks 0 背景 在LeNet提出的将近20年里,神...

  • 120
    attention is all you need

    Attention is all you need 1 为什么提出attention 传统的RNN的不足如果想要生成,它需要计算,这严重阻碍了计算的并行化,如果是很长的序...

  • 2021-10-15

    Abstract 学习出高质量的句子表示是有利于广泛的自然语言处理任务,尽管bert-base在很多的下游任务当中达到了很好的效果,但是bert-base直接导出的句子表示被...

  • attention

    普通attention 根据相似度的计算方法不同大致可以分为两种: 点积(大多数) 全连接网络 点积 首先根据torch的nn.LSTM(Bi_direction)可以==>...

  • 注意力机制

    注意力机制 一、最开始的注意力机制 为什么会有注意力机制提出来类似于人类看图片,当人们看到一张图片的时候,都会下意识的将注意力放到比较明显的地方或者是自己比较感兴趣的地方,当...

  • 2021-08-16

    3 Approach 此部分,提出句子表征迁移的consert,给与类bert的预训练语言模型M和来自目标分布的无监督数据集D,目标是在数据集D上fine-tune模型M...

  • 利用word2vec预训练的词向量进行文本分类

    利用word2vec预训练的词向量进行文本分类 读取词向量文件 将词向量变作权重tensor 分词函数 定义Field,声明如何处理数据 划分数据集 建立vocab 构建迭代...

  • 利用torchtext处理文本的一般流程

    利用torchtext进行文本处理的一般流程 建立分词函数 定义Feild声明应当如何处理数据 划分数据集合,制作数据集 建立vocab 构建迭代器 模型构建 训练与验证

  • 关于lstm的线性层的参数设置

    关于lstm的线性层的参数设置 可以看到,nn.lstm的输出有两个: 一般情况下用到的都是state, 它是最后一层每个时间步的隐藏状态 它的size为: num_step...