自然语言处理中的深度学习

教材选用《动手学深度学习》,李沐等著;


词嵌⼊(word2vec)

⾃然语⾔是⼀套⽤来表达含义的复杂系统。把词映射为实数域向量的技术也叫词嵌⼊(word embedding)。近年来,词嵌⼊已逐渐成为⾃然语⾔处理的基础知识。
Word2vec ⼯具包含了两个模型:跳字模型(skip-gram) 和连续词袋模型(continuous bag of words,简称 CBOW)。跳字模型假设基于中⼼词来⽣成背景词,连续词袋模型假设基于背景词来⽣成中⼼词。
为了降低计算复杂度需要使用近似训练⽅法:负采样(negative sampling)或层序softmax(hierarchical softmax)。

⼦词嵌⼊(fastText)

构词学(morphology)作为语⾔学的⼀个重要分⽀,研究的正是词的内部结构和形成⽅式。fastText 提出了⼦词嵌⼊(subword embedding)的⽅法,从而试图将构词信息引⼊ word2vec 中的跳字模型。

全局向量的词嵌⼊(GloVe)

在有些情况下,交叉熵损失函数有劣势。GloVe 采⽤了平⽅损失,并通过词向量拟合预先基于整个数据集计算得到的全局统计信息。

⽂本情感分类:使⽤循环神经⽹络(BiRNN)

使⽤⽂本情感分类来分析⽂本作者的情绪。这个问题也叫情感分析,并有着⼴泛的应⽤。例如,我们可以分析⽤⼾对产品的评论并统计⽤⼾的满意度,或者分析⽤⼾对市场⾏情的情绪并⽤以预测接下来的⾏情。
⽂本分类也属于词嵌⼊的下游应⽤,应⽤预训练的词向量和含多个隐藏层的双向循环神经⽹络们来判断⼀段不定⻓的⽂本序列中包含的是正⾯还是负⾯的情绪。
BiRNN模型中,每个词先通过嵌⼊层得到特征向量。然后,我们使⽤双向循环神经⽹络对特征序列进⼀步编码得到序列信息。最后,我们将编码的序列信息通过全连接层变换为输出。具体来说,我们可以将双向⻓短期记忆在最初时间步和最终时间步的隐藏状态连结,作为特征序列的编码信息传递给输出层分类

⽂本情感分类:使⽤卷积神经⽹络(textCNN)

如果将⽂本当做是⼀维图像,从而可以⽤⼀维卷积神经⽹络来捕捉临近词之间的关联。其中textCNN是卷积神经⽹络应⽤到⽂本分析的开创性⼯作之⼀。
TextCNN 主要使⽤了⼀维卷积层和时序最⼤池化层。多输⼊通道的⼀维互相关运算可以看作是单输⼊通道的⼆维互相关运算。时序最⼤池化层的输⼊在各个通道上的时间步数可以不同。

textCNN 的设计

textCNN 的计算主要分为以下⼏步:

  1. 定义多个⼀维卷积核,并使⽤这些卷积核对输⼊分别做卷积计算。宽度不同的卷积核可能会捕捉到不同个数的相邻词的相关性。
  2. 对输出的所有通道分别做时序最⼤池化,再将这些通道的池化输出值连结为向量。
  3. 通过全连接层将连结后的向量变换为有关各类别的输出。这⼀步可以使⽤丢弃层应对过拟合。

编码器—解码器(seq2seq)

当输⼊输出都是不定⻓序列时,我们可以使⽤编码器—解码器(encoder-decoder) 或者 seq2seq模型。这两个模型本质上都⽤到了两个循环神经⽹络,分别叫做编码器和解码器。

编码器—解码器

上图使⽤编码器—解码器将句⼦由英语翻译成法语。
编码器的作⽤是把⼀个不定⻓的输⼊序列变换成⼀个定⻓的背景变量,并在该背景变量中编码输⼊序列信息。
解码器将上⼀时间步的输出以及背景变量作为输⼊,来⽣成输出序列。

束搜索

束搜索(beam search)是对贪婪搜索的⼀个改进算法。它有⼀个束宽(beam size)超参数。束搜索通过灵活的束宽来权衡计算开销和搜索质量。

束搜索

上图展示了束搜索的过程。束宽为 2,输出序列最⼤⻓度为 3。候选输出序列有 A、C、AB、CE、ABD和 CED。

注意⼒机制

以循环神经⽹络为例,注意⼒机制通过对编码器所有时间步的隐藏状态做加权平均来得到背景变量。

:编码器—解码器上的注意⼒机制

上图描绘了注意⼒机制如何为解码器在时间步上计算背景变量,在解码器的每个时间步使⽤不同的背景变量,并对输⼊序列中不同时间步编码的信息分配不同的注意⼒。

机器翻译

机器翻译是指将⼀段⽂本从⼀种语⾔⾃动翻译到另⼀种语⾔。
评价机器翻译结果通常使⽤ BLEU(Bilingual Evaluation Understudy)。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,651评论 6 501
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,468评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,931评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,218评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,234评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,198评论 1 299
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,084评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,926评论 0 274
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,341评论 1 311
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,563评论 2 333
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,731评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,430评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,036评论 3 326
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,676评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,829评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,743评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,629评论 2 354

推荐阅读更多精彩内容