《Dependency-Based Word Embeddings》阅读笔记

摘要:现在的word embeddings方法都是基于线性上下文的。本文generalize the skip gram model with negative sampling introduced by Mikolov to include arbitrary contexts任意的上下文。

dependency-base embeddings是less topical(局部的),并且more functional similarity than the original skip-gram embeddings


Introduction

过去的方法:将单词表示是分离和不同的symbols,suffers from poor generalization。

本文希望seek a representation that captures semantic and syntactic similarities between words。

过去有方法是基于distributional hypothesis分布假设(Harris 1954),On one end of the spectrum,words are grouped into clusters based on their context(Brown et al.1992, Uszkoreit and Brants, 2008),另一种,高维但是稀疏的向量。 在一些任务中,降低向量的稀疏性,例如SVD或LDA。

最近,使用神经网络语言模型,这些word representation可以称为"neural embeddings"或"word embeddings"。

the state-of-the-art word embedding method是the skip-gram with negative sampling model(SKIPGRAM),使用word2vec软件。

本文,generalize the skip-gram model,将线性上下文转换为arbitrary word contexts。

We experiment with syntactic contexts that are derived from automatically produced dependency parse-trees.


The Skip-Gram Model:

定义:

词和上下文定义

负采样:the negative-sampling objective assumes a dataset D of observed (w, c) pairs of words w and the contexts c。

word-context pair (w, c),这个pair是否来自D。p(D=1 | w, c)是(w,c)来自数据的概率,p(D=0 | w,c) = 1 - p(D=1|w,c)是不存在的概率。分布为:

(w,c) pair来自D的概率分布建模

vw和vc模型要学习的参数。最大化log-probability:

最大化log-probability

如果p(D=1|w,c)=1,设置vc=vw并且vc点乘vw=K,K是足够大的数。为了避免这种解决方法,the objective is extended with (w,c) pairs for which p(D=1|w,c) must be low,pairs没有在D中,构建数据集D‘,(w,c) pairs都是不对的。负采样的训练目标:

负采样

负样本D'可以通过不同的方法构建,Mikolov提出的:对每个(w,c)属于D,构建n个样本(w,c1)...(w,cn),n是hyperparameter,每个cj根据它的unigram distribution raised to the 3/4 power。

Optimizing this objective makes observed word-context pairs have similar embeddings, while scattering unobserved pairs. Intuitively, word that appear in similar context should have similar embeddings, though we have not yet found a formal proof that SKIPGRAM does indeed maximize the dot product of similar words.


Embedding with Arbitrary Contexts:

SKIPGRAM embedding算法,word w的上下文使用surrounding它的,context vocabulary C是和word vocabulary W一样的。然而,上下文不需要与words相关联,context的数目可以远大于word的数目。We generalize SKIPGRAM by replacing the bag-of-words contexts with arbitrary contexts。

本文使用dependency-based syntactic contexts。

1. Linear Bag-of-Words Contexts, target word w附近有大小为k的窗口,上下文大小为2k,如果k是2,那么w的上下文为:w-2, w-1, w+1, w+2。这种线性上下文可能会丢失很多重要的上下文信息。窗口大小为5 is commonly used to capture broad topical content,whereas smaller windows contain more focused information about the target word。

2. Dependency-Based Contexts:首先parsing每个句子,本文:derive word contexts as follows:对于每个target word w with modifiers m1,...,mk and a head h

上下文

lbl是Dependency relation的类型between the head and the modifier(e.g. nsubj, dobj, prep_with, amod)等, lbl-1用于mark the inverse-relation。

Relations that include a preposition are "collapsed" prior to context extraction, by directly connecting the head and the object of the preposition介词。

syntactic dependencies可以捕获距离远的词之间的关联,filter out "coincidnetal"context which are within the window but not directly related to the target word。


实验:

bag-of-word:context with k=5, bag-of-word: context with k=2,DEPS(dependency-based syntactic contexts)

modified word2vec to support arbitrary contexts, and to output the context embeddings in addition to the word embeddings.

The negative-sampling parameter(how many negative contexts to sample for every correct one) was 15.

!!!For DEPS,the corpus was tagged with parts-of-speech using the Stanford tagger(Toutanova et al. 2003) and parsed into labeled Stanford dependencies(de marneffe and Manning, 2008) using an implementation of the parser described in (Goldberg and Nivre, 2012). All tokens were converted to lowercase, and words and contexts that appeared less than 100 times were filtered. 

Qualitative Evaluation:5 most similar words

Quantitative Evaluation:WordSim353 dataset,Chiarello et al. dataset

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,723评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,003评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,512评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,825评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,874评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,841评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,812评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,582评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,033评论 1 308
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,309评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,450评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,158评论 5 341
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,789评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,409评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,609评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,440评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,357评论 2 352

推荐阅读更多精彩内容