深度学习 第11次作业 自然语言处理与词嵌入

1 词汇表征

词嵌入是语言表示的一种方式,例如国王和王后,男人和女人,只用one-hot 编码是无法体现词之间的关联,因此,我们可以用特征化的表示,来表示每个词。例如:特征依次为:gender、royal、age、food … … ,可以得到一个描述词的向量。例如:



为了对他们进行可视化,常用的算法有 t−SNE t-SNEt−SNE 算法,将这些向量投影到低维空间。通过这个投影,会发现相似的词总是聚在一起。


2 使用词嵌入

词嵌入使用步骤:
1.首先从大量的文本集中,学习词嵌入,一个非常大的文本集。
2.将词嵌入模型迁移到你的新的只有少量标注训练集的任务中
3.新的任务上训练模型的时候,可以选择使用新的数据来微调词嵌入。
词嵌入和人脸编码:
词嵌入和人脸编码很类似。在人脸识别领域,我们会将人脸图片预编码成不同的编码向量,以表示不同的人脸,进而在识别的过程中使用编码来进行比对识别。词嵌入则是通过在大量文本中对词汇表的单词进行编码。

3 使用词嵌入

当我们有Man、Woman、King、Queen、Apple、Orange这些词的时候,算法使其知道 Man->Woman 时,King-> Queen具有相似的关系。因此,我们使用相似度来计算:



4 嵌入矩阵

类似于对字典中的每个词做one-hot 编码,嵌入矩阵来描述这个字典中的词嵌入。


5 学习词嵌入

输入KaTeX parse error: Expected group after '' at position 27: …ass of orange ̲,能够预测下划线的词。示意图如下,通过各个词的特征向量作为输入,然后最后通过一个softmax作为一个输出从而预测下划线的词。

6 word2Vec

word2Vec是一种简单而且计算时更加高效的方式来学习这种类型的嵌入。
首先,抽取上下文和目标词配对,来构建监督学习问题。选取 orange 作为 Context ,目标单词为 juice 或 glass 或 my。也就是给定上下文,然后选取在这个词正负 10 个词距或 5 个词距,随机选取的某个目标词。构建这个监督学习问题的目标并不是监督学习本身,而是通过视同这个学习问题,来学到一个更好的词嵌入模型。
假设我们仍然使用了一个10000词的词汇表,Vocab size=10000k。 但我们需要解决的基本的监督学习问题是学习一种映射关系,从上下文C,这里我们假设为 orange (O6527)到某个目标词(target word,记为t),可能为 juice (O4834), 从输入x映射到输出y。


7 负采样

看到一个改善过的学习问题叫做负采样。我们可以给定一个上下文词(context word),例如orange,然后在一定词距内选择对应的词,例如 juice,然后标记 target 为 1。接着,在词典中随机选取 word, 例如king,然后将target标记为0。所以我们在训练过程中,输入的是context<->word (orange<->juice、orange<->king)等单词对,输出的是这俩个词之间的关系,即target的值,0或者1。分类器为Softmax分类器,其计算代价太高。而采样负采样(negative sample)后,假设k=4,我们只需要选取一个与context(这里是orange)对应的词(这里juice),然后其target 为1,再从字典中随机选取四个与orange不对应(一般情况下从字典随机选取是不对应的,当然刚好对应也是没有关系的)词(诸如king、book、the、of等),其target标记为0。 这样子就成了一个逻辑分类问题(Logistic classifier)。在每次迭代过程中从词典中虽然采样更新其负样本,从而训练其参数。


8 情绪分类

情感分类任务就是看一段文本来分辨这个人是否喜欢他们在讨论的这个东西。



通过将句子中每个单词都写成o…o…one-hot 向量的形式,然后乘以一个词嵌入矩阵EE, 我们得到了词嵌入向量e…e…, 然后将所有的向量平均(average),输入到SoftmaxSoftmax最后得到yy。 但是有一个缺点就是忽略了词的顺序,这时候可以用RNN。


©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容

  • 主要内容 自然语言输入编码 前馈网络 卷积网络 循环网络(recurrent networks ) 递归网络(re...
    JackHorse阅读 4,119评论 0 2
  • 本笔记主要内容翻译自斯坦福大学CS224n: Natural Language Processing with D...
    mmmwhy阅读 652评论 0 0
  • 人到中年,疾病就开始慢慢袭来,特别是高血压病,往往没什么意识,它就会悄悄找上门。最近看到一批医疗救助申请的名单,高...
    冬后春初阅读 230评论 0 3
  • 章节归纳 不要一开始就确定最终结局,否则你会后悔;也不要等确定结果再行动,否则你会错过。 爱情中不要和要结婚的人谈...
    后知后觉S阅读 625评论 0 1
  • 今天 10月5号 国庆假期马上结束了 可感觉 这几天 自己都荒废了 曾经的美好憧憬 诺言 都化为了泡沫 这就是 我...
    期待说声你好阅读 97评论 0 0