22.深度学习之自然语言处理-词嵌入(word2vec)

22.1 词嵌入(word2vec)

  • 自然语言是一套用来表达含义的复杂系统。
    • 在这套系统中,词是表义的基本单元。
  • 词向量是用来表示词的向量,也可被认为是词的特征向量或表征。
    • 把词映射为实数域向量的技术也叫词嵌入(word embedding)。

22.1.1 词向量

22.1.2 神经网络模型

22.2 为何不采用one-hot向量

  • 假设词典中不同词的数量(词典大小)为N,每个词可以和从0到N-1的连续整数一一对应。
    • 这些与词对应的整数叫作词的索引。
  • 假设一个词的索引为i,为了得到该词的one-hot向量表示,创建一个全0的长为N的向量,并将其第i位设成1。
  • 虽然one-hot词向量构造起来很容易,但通常并不是一个好选择。
    • 一个主要的原因是,one-hot词向量无法准确表达不同词之间的相似度,如常常使用的余弦相似度。
  • word2vec工具的提出正是为了解决上面这个问题。
    • 它将每个词表示成一个定长的向量,并使得这些向量能较好地表达不同词之间的相似和类比关系。
    • word2vec工具包含了两个模型:
      • 跳字模型(skip-gram)
      • 连续词袋模型(continuous bag of words,CBOW)

22.3 跳字模型

  • 跳字模型假设基于某个词来生成它在文本序列周围的词。
    • 举个例子,假设文本序列是“the”“man”“loves”“his”“son”。以“loves”作为中心词,设背景窗口大小为2。

    • 跳字模型所关心的是,给定中心词“loves”,生成与它距离不超过2个词的背景词“the”“man”“his”“son”的条件概率,即:


    • 假设给定中心词的情况下,背景词的生成是相互独立的,那么上式可以改写成:


  • 在跳字模型中,每个词被表示成两个 d 维向量,用来计算条件概率。
    • 假设这个词在词典中索引为 i ,当它为中心词时向量表示为,


      • 而为背景词时向量表示为 。


    • 给定中心词Wc生成背景词Wo的条件概率可以通过对向量内积做softmax运算而得到:


    • 任一中心词生成所有背景词的概率:


20.3.1 训练跳字模型

  • 跳字模型的参数是每个词所对应的中心词向量和背景词向量。
    • 损失函数:


    • 随机梯度下降

      • 梯度计算的关键是条件概率的对数有关中心词向量和背景词向量的梯度。
      • 根据定义,首先看到:


  • 通过微分,可以得到上式中 Vc 的梯度


22.4 连续词袋模型

  • 连续词袋模型假设基于某中心词在文本序列前后的背景词来生成该中心词。


  • 因为连续词袋模型的背景词有多个,将这些背景词向量取平均,然后使用和跳字模型一样的方法来计算条件概率。

      • 分别表示词典中索引为 i 的词作为背景词和中心词的向量
    • 设中心词 Wc 在词典中索引为 c ,背景词


      • 在词典中索引为


      • 那么给定背景词生成中心词的条件概率:



      • 那么上式可以简写成


    • 连续词袋模型的似然函数是由背景词生成任一中心词的概率


22.4.1 训练连续词袋模型

  • 训练连续词袋模型同训练跳字模型基本一致。
    • 最小化损失函数


    • 通过微分,可以计算出上式中条件概率的对数有关任一背景词向量


      • 的梯度:


大数据视频推荐:
腾讯课堂
CSDN
大数据语音推荐:
企业级大数据技术应用
大数据机器学习案例之推荐系统
自然语言处理
大数据基础
人工智能:深度学习入门到精通

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,717评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,501评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,311评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,417评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,500评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,538评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,557评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,310评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,759评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,065评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,233评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,909评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,548评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,172评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,420评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,103评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,098评论 2 352

推荐阅读更多精彩内容