NLP讲座3: 词性信息-子词模型

1.人类语言的声音:语音和语音学


  • 语音是声音流–毫无争议的“物理”
  • 语音学假设一小部分或几组独特的类别单元:音素或独特特征
  • 也许是普遍的类型学,但特定语言的实现
  • 类别感知的最佳证据来自语音学
    • 音素内差异缩小;音素间放大

形态:词的一部分


  • 传统上,我们把语素作为最小的语义单元
  • [[un [[fortun(e)] ROOT ate] STEM] STEM ly] WORD
  • 深度学习:形态学研究很少;
    一次尝试递归神经网络是(Luong,Socher,&Manning 2013)

<一种处理较大词汇量的可能方法-最看不见的单词是新的形态形式(或数字)>

形态学


  • 一个简单的替代方法是使用字符n-gram
  • Wickelphones(Rumelhart&McClelland 1986)
  • 微软的DSSM(Huang,He,Gao,Deng,Acero和Hect 2013)
  • 有关使用卷积层的想法
  • 可以更轻松地提供语素的许多好处吗?

书写系统中的单词


写作系统在表达单词的方式上有所不同-或不

  • 没有分词 例:美国关岛国际机场及其办公室均接获
  • 单词(主要)分为:This is a sentence with words
    • 批评家?

      • 分开的 Je vous ai apporté des bonbons
      • 已加入 ف+ قال+ نا+ ھا = فقلناھا = so+said+we+it
    • 化合物?

      • 分开的 life insurance company employee
      • 已加入 Lebensversicherungsgesellschaftsangestellter

单词级别下的模型


  • 需要处理 large,openvocabulary
    • 丰富的形态:nejneobhospodařovávatelnějšímu
      (“to the worst farmable one”)

    • 音译:Christopher Kryštof

    • 非正式拼写:

字符级别下的模型


1.单词嵌入可以由字符嵌入组成

  • 为未知单词生成嵌入
  • 相似的拼写共享相似的嵌入
  • 解决OOV问题

2.可以将连接的语言当作字符来处理两种方法都已证明非常成功!

  • 令人惊讶的是-传统上,音素/字母不是语义单位-但是DL模型组成了组

文字下方:书写系统


大多数深度学习NLP的工作都是从书面形式的语言开始的-它是易于处理的发现数据
但是人类语言写作系统不是一回事!

音位(也许有字) jiyawu ngabulu Wambaya
僵化音素 thorough failure English
音节/摩拉 ᑐᖑᔪᐊᖓᔪᖅ Inuktitut
表意文字(音节符号) 去年太空船二号坠毁 Chinese
结合以上 インド洋の島 Japanese

2. 纯字符级模型


  • Wesawone很好的例子,用于句子分类的字符级模型
  • 非常深的卷积网络用于文本分类
  • Conneau,Schwenk,Lecun,Barrault,EACL 2017
  • 通过深度卷积堆栈获得强大结果

纯字符级NMT模型


-最初表现不理想•(Vilar等,2007; Neubig等,2013)

  • 仅解码器
  • (钟俊英,赵庆gh,Yoshua Bengio。arXiv
    2016)。
  • 有希望的结果
  • (Wang Ling,Isabel Trancoso,Chris Dyer,Alan Black,arXiv 2015)
  • (Thang Luong,Christopher Manning,ACL 2016)
  • (Marta R.Costa-Jussà,JoséA. R. Fonollosa,ACL 2016)

英语-捷克语WMT 2015成绩


  • LuongandManning测试了基准基线纯字符级seq2seq(LSTM)NMT系统
  • 针对关键字级别的基准进行了有效处理
  • Butitwasssllooooww
    • 3个星期的训练...在运行时不是那么快

英语-捷克语WMT 2015示例


无需显式细分的全字符级神经机器翻译


Jason Lee,Kyunghyun Cho,Thomas Hoffmann。 2017.编码器如下; 解码器是字符级GRU

在LSTM seq2seq模型中具有深度的更强字符结果


回顾基于字符的神经机器翻译的能力和压缩。 2018.Cherry,Foster,Bapna,Firat,Macherey,Google AI

3. 子词模型:两种趋势


  • 与词级模型相同的体系结构:
  • 但是使用较小的单位:“单词”
  • [Sennrich,Haddow,Birch,ACL’16a],[Chung,Cho,Bengio,ACL’16]。
  • 混合架构:
  • 主模型有文字; 角色的其他东西
  • [Costa-Jussà&Fonollosa,ACL’16],[Luong&Manning,ACL’16]。

字节对编码


  • 最初是压缩算法:
    • 最频繁的字节对一个新字节。

Rico Sennrich,Barry Haddow和Alexandra Birch。 具有子词单位的稀有词的神经机器翻译。 ACL 2016。
https://arxiv.org/abs/1508.07909 https://github.com/rsennrich/subword-nmt https://github.com/EdinburghNLP/nematus


  • 分词算法:
  • 虽然是自底向上的聚类
  • 以数据中所有(Unicode)字符的字母组合词表开头
  • 最常见的ngram对一个新的ngram

  • 分词算法:
  • 从字符词汇开始
  • 最常见的ngram对一个新的ngram






  • 达到目标词汇量大小并在您到达时停止
  • 确定性最长的单词分段
  • 使用某些先前的标记器(通常是用于MT的Moses标记器)识别的单词进行细分
  • 自动决定vocabforsystem

字词/句子模型


  • GoogleNMT(GNMT)使用以下版本
    • V1:字词模型
    • V2:句子模型
  • Ratherthancharn-gramcount,使用贪婪近似来最大化语言模型的对数可能性以选择片段
    • 添加最大程度减少困惑的n-gram
  • 单词模型对内单词进行标记
  • 句子模型来自原始文本
  • BERT使用字词模型的变体
  • (相对)常用词在词汇表中:
    • 1910年代,费尔法克斯
  • 其他单词是由单词构成的:
    • hypatia = h ## yp ## ati ## a
      如果您以其他方式使用BERT
      基于模型,您必须处理

4. 字符级以构建词级学习词级表示形式


语音标记(Dos Santos和Zadrozny 2014)

  • 卷积字符以生成单词嵌入
  • 修复了用于PoS标记的词嵌入窗口

基于字符的LSTM构建单词表示


基于字符的LSTM


技术方法


字符感知神经语言模型

Yoon Kim,Yacine Jernite,David Sontag,Alexander M.Rush,2015年
更为复杂/复杂的方法

  • 推导适用于多种语言的强大而强大的语言模型。
  • 编码子词相关性:事件,事件,事件...
  • 解决现有模型的稀有字问题。
  • 以更少的参数获得可比的表现力。

卷积层


  • 在字符级输入上进行卷积。
  • 随时间变化的最大池化(有效地选择n-gram)。

公路网(Srivastava et al.2015)


  • 模拟n-gram交互。
  • 在保留原始信息的同时进行转换。
  • 功能类似于LSTM存储单元。

长短期记忆网络


  • 分层Softmax,用于处理大量输出词汇。
  • 通过截断的反向传播进行训练。

定量结果


定性见解


外卖


  • 论文质疑使用词嵌入作为神经语言建模输入的必要性。
  • 字符上方的CNN +高速公路网络可以提取丰富的语义和结构信息。
  • 关键思想:您可以构成“构建基块”以获得细微而强大的模型!

混合NMT


  • 两全其美的架构:
  • 主要在单词级别进行翻译
  • 仅在需要时进入角色级别
  • 对复制机制进行了超过2种BLEU改进,以尝试填写稀有词

2级解码


  • 单词级光束搜索
  • 单词级光束搜索
  • 字符级光束搜索<unk>

英语和捷克语的结果


  • 训练WMT’15数据(1200万个句子对)
    • newstest2015

样本英语-捷克语翻译

  • Char-based:错误的名字翻译
  • Word-based:不正确的对齐


  • Char-based&hybrid:diagnózen的正确翻译


  • 基于单词:身份复制失败

  • hybrid:正确,11-year-old – jedenáctiletá
  • 错误:Shani Bartová

5. 单词嵌入的字符


词嵌入和词形态的联合模型
(Cao and Rei 2016)

  • 与w2v相同的目标,但使用字符
  • 双向LSTM计算嵌入
  • 模型尝试捕获形态
  • 模型可以推断出词根

FastText embeddings


使用子词信息Bojanowski,Grave,Joulin和Mikolov丰富词向量。 公平。 2016。
https://arxiv.org/pdf/1607.04606.pdf
https://fasttext.cc

  • 目标:高效的类似于word2vec的单词表示库,但更适合具有多种形态的稀有单词和语言
  • w2v跳过语法模型的扩展,包含字符n-gram
  • 用边界符号和整个单词表示的单词表示为charcharn-gram:
  • where = <wh,whe,her,ere,re>,<where>
    • 请注意,<her>或<her与她不同
      • 前缀,后缀和整个单词都很特殊
  • 代表这些表示的词。
    上下文分数中的单词为:
    • 细节:不是共享所有n-gram的表示,而是使用“哈希技巧”来固定向量个数

单词相似性数据集得分(相关性)

  • 稀有词的差别收益
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,542评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,596评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,021评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,682评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,792评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,985评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,107评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,845评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,299评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,612评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,747评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,441评论 4 333
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,072评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,828评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,069评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,545评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,658评论 2 350