吴恩达深度学习-序列模型 2.7 负采样

这节课学习的同样是一个监督学习嵌入向量的模型,上节课的skip-gram使用的softmax分类器求和带来的计算量太大了,这节课使用的算法可以避免这个问题。

这节课名字叫做负采样,那么正采样呢?

我们还是像上节课一样,在一句话里随机选出一个context,然后在一定的词距范围内选择一个词。这两个词组成的一个pair就叫做正样本,然后再在词典当中随机选择一个词,把它们设置成不相关,这就叫做负样本,这些随机取出的词即使在词距之内也没有关系。

然后这个监督学习框架的功能是:给定一组词,然后判断他们是否target为1。

在设置有几个负样本的时候原则是这样的:假设这个数据集越小,则k越大(5-20),假如这个数据集很大,则k越小(2-5),k代表的取几个负样本,在本次里k=4。

这个模型的概率p函数等于Θt X ec,跟之前一样的是,它形成的是10000个二分类的逻辑回归分类器,而不是一个softmax分类器。

假如像我们之前举的例子那样,那么我们拥有4个负样本和1个正样本,每次进行训练的时候就只会针对这5个样本的二分类分类器进行训练。


在选取负采样的样本时,如何选取是很有讲究的。假如我们按照词频从高到低选,那么我们还是很容易选中and、if等等这种词,但是如果你是完全按照随机的方式选取,那么这些词往往不具有代表意义。

这里有一个没什么理论依据但是效果很好的做法,我们不完全按照词频当成概率来进行单词的选取,而是使用词频的3/4次方作为分子,然后把所有词频的3/4次方的和作为分母,得到随机选取这个词的概率。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 1.我们可以假设有300个不同的特征,这样的话就会有一列数字,新的特征表示的东西肯定比较难搞清楚,通常我们可以把这...
    yumiii_阅读 514评论 0 0
  • 1. RF, GBDT 的区别; GBDT,XGboost 的区别 GBDT在训练每棵树时候只能串行,不能并行,在...
    sylvainwang阅读 3,333评论 0 50
  • A 准确率(accuracy) 分类模型预测准确的比例。在多类别分类中,准确率定义如下: 在二分类中,准确率定义为...
    630d0109dd74阅读 1,446评论 0 3
  • 深度学习(花书) 第一章 前言 本章节描述了深度学习的发展历史,应用前景,发展趋势,粗略的介绍机器学习如何有别于软...
    迷途的Go阅读 671评论 0 1
  • 学习自我催眠可以疗愈90%左右的问题,那是利己;要利他,就要专业的,正规的,正确的去学习催眠疗愈师,考取催眠疗愈师...
    友涵阅读 165评论 0 0