Word2vec:Hierarchical Softmax训练

    本文记录的目的是方便自己学习和复习,有误之处请谅解,欢迎指出。

    上一篇介绍了word2vec两种基础模型CBOW和Skip-gram的训练过程,但是我们发现这样可能会出现计算量过大的问题,怎么改进网络减少计算量呢?

        有两种改进方式,(1)分层Softmax(Hierachical Softmax),(2)负采样(Negative Sampling)。现在介绍第一种分层Softmax。

        首先,Hierachical Softmax改进的核心是使用哈夫曼树(霍夫曼树)代替原来的softmax分类,有必要先简述下。

一、哈夫曼树

        哈夫曼树,又称为最有二叉树,构建哈夫曼树的过程:

        (1)将(w_{1},w_{2},w_{3},...,w_{n} )看作n个树的森林,每棵树一个节点。

        (2)将最小的两棵树合并为一颗新树,新树权重为两子树权重之和

        (3)去除合并的树,将新树加入森林

        (4)重复(2)、(3)直至构建为一棵树。具体例子如下图所示。

哈夫曼树构造过程

        哈夫曼树有什么特点,有什么作用呢?我们发现哈夫曼树的权重值越大越靠近根节点,权重越低越远离根节点,这样权重大的哈夫曼编码短,权重小的哈夫曼编码长。也就表示权重大的词路径越短,权重小的词路径越长。

        对于词的权重,取每个词的词频作为权重构建哈夫曼树。常用词离根节点距离越短,计算量就越少。假如词典确定情况下,首先通过词频构建一颗哈夫曼树,并获得每个词的哈夫曼编码。

二、Hierarchical Softmax

    基于传统神经网络的词向量语言模型,包含输入层、隐藏层和输出层,只是去掉了激活层。由于输出层通过softmax计算概率,计算量较大,为了减少计算量,使用哈夫曼树代替原来的softmax,可以大大减少了计算量。整体结构也发生了变化,去掉了之前输入层和隐藏层之间映射,词向量随机初始化,而且多个词向量采取求和取平均的方式。例如,输入的是三个4维词向量:(1,2,3,4),(9,6,11,8),(5,10,7,12),那么我们求和取平均后的词向量就是(5,6,7,8)。

    1、哈夫曼树如何代替softmax?

        我们可以把哈夫曼树的父节点(图中黄点)理解为原来神经网络语言模型的隐藏层神经元,叶子节点理解为输出层Softmax的神经元。

        哈夫曼树的输出需要按照树结构一步一步往下走,一直找到叶子节点,因为每个父节点包含左右两个子节点,往左走为1,网右走为0。因此,走到叶子节点的路径都包含一个唯一哈夫曼编码,判断0和1输出使用sigmoid函数:

        其中,x_{w}^T 为词向量,\theta 为模型参数。其实就是用多个独立的二分类代替了softmax的作用,假设原来softmax计算量为V,变成了Log_{2} V。同时高频词靠近根节点,可以用更少的时间找到。

     2、具体流程是什么样子呢?

        这里以基于Hierarchical Softmax的CBOW模型为例。如下图

    (1)首先如上述,需要对我们的词典表构建一个哈夫曼树,并记录每个词的哈夫曼编码

    (2)设置固定窗口大小,取2C个词的词向量求和取平均(与之前讲过神经网络语言模型的One hot不同,这里的词向量是随机初始化的)

    (3)通过梯度更新网络参数和词向量

    如何更新参数和词向量,就是下面要介绍的梯度推导。

三、Hierarchical Softmax梯度推导

    怎么输出真实叶子节点的概率和更新参数呢?使用概率公式和极大似然函数进行更新。哈夫曼树中某一条路径上的节点都是相对独立的二分类,所以可以通过每个节点概率相乘的方式表示叶子节点的概率。假设路径上有三个节点,即:

    每单个节点的概率表达式如下:

    其中,x_{w} 为词向量,\theta ^w为节点参数,d^w 为哈夫曼编码值。因此最后的似然函数为:

    对词向量x_{w} 和模型参数\theta ^w求导,得:

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,928评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,192评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,468评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,186评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,295评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,374评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,403评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,186评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,610评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,906评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,075评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,755评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,393评论 3 320
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,079评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,313评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,934评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,963评论 2 351

推荐阅读更多精彩内容