自然语言处理(NLP)论文总结(2)Efficient Estimation of Word Representations in Vector Space

摘要

提出了两种新的模型结构,用于计算非常大数据集中单词的连续矢量表示。这些表示的质量是在一个词相似性任务中测量的,并将结果与以前基于不同类型神经网络的最佳表现技术进行比较。我们观察到,在低得多的计算成本下,精度有了很大的提高,也就是说,从16亿字的数据集中学习高质量的字向量只需不到一天的时间。此外,我们还表明,这些向量在测试集上提供了最先进的性能,用于测量句法和语义词的相似性。

目标

介绍一些技术,这些技术可以从具有数十亿个单词和数百万个单词的庞大数据集中学习高质量的单词向量。

屈折语言中发现,词语的表征特性相似度超过了简单的语法规律,在原始向量空间搜索相似的词可以找到词尾相似的词。

使用词偏移技术,在单词执行简单的代数运算,例如vector( King ) -

vector( Man ) + vector( Woman )得到的向量最接近vector(Queen)

在本文中,我们试图通过开发新的模型架构来保持单词之间的线性规律,以最大限度地提高这些向量运算的准确性。我们设计了一个新的综合测试集来衡量语法和语义规则,并表明许多这样的规则可以学习的高精度。此外,我们讨论了训练时间和准确性如何依赖于字向量的维数和训练数据的数量。

模型

新型对数线性模型

大部分复杂性是由模型中的非线性隐藏层造成的。发现神经网络语言模型可以通过两个步骤成功地训练:首先,使用简单的模型学习连续词向量,然后在这些分布之上训练N-gram MNNLM。

第一个提出的架构类似于前馈NNLM,其中非线性隐藏层被删除,投影层为所有词(不仅仅是投影矩阵)共享; 因此,所有单词被投影到相同的位置(它们的向量被平均)

第二种架构与CBOW类似,但它不是根据上下文来预测当前的单词,而是根据同一句子中的另一个单词来最大程度地分类单词。

结论

单词向量通过简单的代数计算,在向量空间中搜索余弦距离相近的词,可以很好地找到答案,而且有微妙的语义关系。

实验

为了衡量词向量的质量,我们定义了一个包含五种类型语义问题和九种类型语法问题的综合测试集。表1显示了每个类别的两个示例。共有8869个语义问题和10675个句法问题。每个类别中的问题都是通过两个步骤创建的:首先,手动创建一个类似的单词对列表。


增加维度或者训练集可以改善准确率:


模型更为优秀。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,635评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,628评论 3 396
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,971评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,986评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,006评论 6 394
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,784评论 1 307
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,475评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,364评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,860评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,008评论 3 338
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,152评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,829评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,490评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,035评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,156评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,428评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,127评论 2 356