CS224N(12)-子词模型

Subword Models

一、Morphology: Parts of words

在传统上,我们通常将语素作为最小的语义单位。
在深度学习中:形态学方面研究很少;下面的图片展示了RNN在形态学方面的应用:

处理大词汇表的可能的方法是使用最不可见的单词的新的形态形式来构造词汇表。

在这方面最简单的想法就是使用字符级别的n-gram或则使用字符级别的CNN。下面我们来介绍一下Character-Level Models。

1、Character-Level Models

通常,word embeddings可以由character embeddings来组成。除此之外它还可以,为未知单词生成embedding、不同的词可以类似的拼写一样共享类似的embeddings、解决OOV问题。
这样,一句连续的话,就可以一字符集别的方式进行处理。

1.Purely character-level models

这类模型有很多,包括
1.服务于句子分类的字符集别的模型--VDCNN,它通过非常深的网络结构产生了一个比较好的结果。

2.Fully Character-Level Neural Machine Translation without Explicit Segmentation

模型结构及其结果:


3.Stronger character results with depth in LSTM seq2seq model
论文出处:Revisiting Character-Based Neural Machine Translation with Capacity and Compression. 2018.Cherry, Foster, Bapna, Firat, Macherey, Google AI

二、子词模型的趋势

1、主要趋势

1.与单词级别的模型架构相同,但使用的是字符级别的输入
2.采用混合架构,输入主要是字符,但是会混入其他信息

2、Byte Pair Encoding

Byte Pair Encoding最初是一种压缩算法,其主要是使用一些出现频率高的byte pair来组成新的byte。

但它也可别作为一种分词算法(尽管其本质是自下而上的聚类方法),它以数据中所有(Unicode)字符的单字组词汇开头并且使用最常见的n-gram对来组成一个新的n-gram。

例如使用常见的n-gram来组成一个词汇表,然后用词汇表中的n-gram来
组成新的n-gram,这样就避免了以往使用词级别的词汇表带来的词汇表过大的问题。

这个算法有一些需要注意的地方:

1.有一个目标词汇量大小并在到达时停止训练
2.需要确定单词的最长分割片段
3.分词过程仅在由某些先前的标记器(通常为MT的Moses标记器)标识的单词内进行。
4.自动决定系统的词汇,不再以常规方式过度使用“单词”

3、Wordpiece/Sentencepiece model

Google NMT使用了借鉴了上面的方法,其V1使用的是wordpiece mode,V2使用的是sentecepiece model。它并没有采取字符集别的n-gram计数方法,而是使用贪心近似来最大化语言模型日志可能性来选择片段,添加n-gram信息,是为了最大限度地减少perplexity。Wordpiece模型标记化内部的单词,Sentencepiece模型则对原始文本进行处理。

BERT模型使用的是wordpiece的变体,对于一些常见词如1910s、at、fairfax等词直接使用;对于其他词则根据wordpieces来构建。需要注意方在其他任务中使用bert时,必须处理这个问题。

4、Character-level to build word-level

Learning Character-level Representations for Part-of�Speech Tagging (Dos Santos and Zadrozny 2014)

该网络结构主要是对字符进行卷积以生成单词嵌入,同时使用
固定窗口对PoS标记的字嵌入进行操作。

后续还有人使用双向LSTM来将charater embedding构建成word embedding

5、Character-Aware Neural Language Models

Yoon Kim, Yacine Jernite, David Sontag, Alexander M. Rush. 2015

这是一个更加复杂的方法,其主要动机在于:

提供一种功能强大,功能强大的语言模型,可以在各种语言中有效。
•编码子词相关性:eventful, eventfully, uneventful…
•解决先前模型的罕见字问题。
•使用更少的参数获得可比较的表现力。

模型结构图如下:

其卷积层的结构如下:

Highway Network结构图及涉及公式如下:

LSTM单元结构图如下:

首先,论文质疑使用文字嵌入作为神经语言建模的输入的必要性。其次,CNNs +高速公路网络可以提取丰富的语义和结构信息。

6、Hybrid NMT

这是一个非常出色的框架,主要是在单词级别进行翻译,但是在有需要的时候可以很方便的使用字符级别的输入。
其网络结构图如下:

该模型还同时对word-level和char-level进行了beam search操作,并且对隐藏层进行了初始化操作。

7、chars for word embeddings

A Joint Model for Word Embedding and Word Morphology(Cao and Rei 2016
该模型的目标与word2vec相同,但是使用的时字符集别的输入。它使用了双向的LSTM结构尝试捕获形态并且能够推断出词根。

8、fasttext

Enriching Word Vectors with Subword InformationBojanowski, Grave, Joulin and Mikolov. FAIR. 2016.
论文地址:https://arxiv.org/pdf/1607.04606.pdf or https://fasttext.cc

它是word2vec的升级版,对于具有大量形态学的稀有词和语言有更好的表征,它也可以说是带有字符n-gram的w2v skip-gram模型的扩展。其核心思想在于:将单词的向量表示为字符n-gram用边界符号和整个单词表示的向量的叠加:where = <wh,whe,her,ere,re>,<where>在这里<her>或<her与她不同,并且前缀,后缀和整个单词是特殊的表示单词作为这些表示的总和。
上下文得分中的单词是:

该论文还使用了散列表来存储所有的n-gram的表示,这样可以减少内存的占用。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,192评论 6 511
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,858评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 166,517评论 0 357
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,148评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,162评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,905评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,537评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,439评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,956评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,083评论 3 340
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,218评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,899评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,565评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,093评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,201评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,539评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,215评论 2 358