240 发简信
IP属地:安徽
  • Transformer的一些理解

    最近又认真的看了一遍Transformer,但是研究的越多,反而也看不清真相了。 为啥这样的一些设计,竟然能让模型记住那么多信息。如今各大厂竞相搞大模型,大搞军备竞赛。可是在...

  • 120
    真正的利器:对比学习SimCSE

    最近看了一篇最新的Sentence Embedding论文,今年4月份的,丹琦大神发表的《Simple Contrastive Learning of Sentence Em...

  • 120
    Faiss那点事~

    最近看了下Faiss的原因,今天让我们来Faiss那点事~全名叫Facebook AI Similarity Search。顾名思义,Facebook的Ai相似检索。主要用来...

  • 120
    偏差(Bias)、方差(Variance)、噪声、泛化误差

    聊到这几个概念,一般人如果不认真看,还真容易搞混。看上去貌似很高大的术语,其实理解后很简单。接下来,咱们就看下。 偏差 是指在同一份数据集上,训练一个模型,模型的预测值和r人...

  • 120
    Hard Negtive

    题目 试想有一份数据集,有99个负样本,1个正样本。现在我们要学习一个模型,怎么学? 分析 看上去,直接学,模型会拟合大量负样本的特性。根本学不到正样本的。学到的模型,即使将...

  • 120
    深度语言模型-AlBert

    Google在2020年提出了AlBert模型。模型是对Bert的改进,效果肯定要好,不然怎么是改进呢,貌似说的是废话。闲言碎语不要讲,直接上结论: 各项都很牛 到底做什么,...

  • DropOut技术简述

    DropOut的概念首次在2012年,论文《Improving neural networks by preventing co-adaptation of feature ...

  • 120
    UDA(Unsupervised Data Augmentation 无监督数据增强)

    Google在2019年提出了UDA方法(Unsupervised Data Augmentation 无监督数据增强),这是一种半监督学习方法。问世后,就击败了市面上其他的...

  • 采样

    对于样本分布不平衡的分类,如果按照0.5阈值分类,容易造成虚假的指标。因为模型一直都在学习大样本类,这样最后预测的结果,倾向于大样本类。因此可以考虑下面两个方法: 调整阈值,...

  • 120
    语义召回模型-TwinBert

    Microsoft在2020年提出了TwinBERT: Distilling Knowledge to Twin-Structured Compressed BERT Mod...

  • Word Hasing

    何为Word Hashing? 仅用于英文中。具体以book这个单词为例,分为三个步骤: 在book两端添加临界符#book# 采用n-gram的方式分成多个部分,如果是tr...

  • 120
    深度语言模型-Transformer-XL

    简介 2019年提出《Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context》论文,是...

  • 120
    深度语言模型-GPT

    简介 OpenAI在2018提出了GPT(Generative Pre-Training)模型,模型采用了Pre-training + Fine-tuning的训练模式,可用...

  • 120
    深度语言模型-ELMo

    简介 2018年3月,ELMo这篇paper发表,《Deep contextualized word representations》, 是NAACL18 Best Pape...

  • 120
    深度语言模型-Cove

    2017 年,Salesforce 的 Bryan McCann 等人发表了一篇文章 Learned in Translation: Contextualized Word ...

  • 120
    Attention

    为何要引入Attention机制 由于RNN具有长梯度消失的问题,对于很长的句子,仅仅通过输出序列转化成定长的隐状态向量,难以保存完整的信息。肯定会有损失,造成效果下降。这样...

  • Word2Vec

    问题Word2Vec学习出来的向量本身就含有了语义信息,那为什么还有问题呢?是什么问题?问题就是多义词问题,众所周知,所有的语言为了提高复用性,都会有多义词现象。word2v...

  • 120
    XLNet

    原理XLNet原理挺简单的概括起来一句就是:采取了Attention掩码的机制,来实现通过上下文来预测某个词。详细理解输入是和之前完全一样,该怎么输入就怎么输入,不像BERT...

  • RA

    RA是一种无监督排序方法,适用于底层排序,主要优势有三点:1. 成本低2. 随机抽取样本,更符合数据真实分布。3. 在线使用离线参数,性能低,工程可行性高。目前在RA领域研究...

  • 120
    LambdaMART之见底之解

    引入 lambdamart是什么呢? 无非是 lamda + mart. lambda 和 mart又是什么呢? lambda 大师强制定义的梯度。含义是:指明下一次移动的方...

个人介绍
细雨湿衣看不见,闲花落地听无声~