Word2vec：Hierarchical Softmax训练

本文记录的目的是方便自己学习和复习，有误之处请谅解，欢迎指出。

上一篇介绍了word2vec两种基础模型CBOW和Skip-gram的训练过程，但是我们发现这样可能会出现计算量过大的问题，怎么改进网络减少计算量呢？

有两种改进方式，（1）分层Softmax（Hierachical Softmax），（2）负采样（Negative Sampling）。现在介绍第一种分层Softmax。

首先，Hierachical Softmax改进的核心是使用哈夫曼树（霍夫曼树）代替原来的softmax分类，有必要先简述下。

一、哈夫曼树

哈夫曼树，又称为最有二叉树，构建哈夫曼树的过程：

（1）将 $(w_{1},w_{2},w_{3},...,w_{n} )$ 看作n个树的森林，每棵树一个节点。

（2）将最小的两棵树合并为一颗新树，新树权重为两子树权重之和

（3）去除合并的树，将新树加入森林

（4）重复（2）、（3）直至构建为一棵树。具体例子如下图所示。

哈夫曼树构造过程

哈夫曼树有什么特点，有什么作用呢？我们发现哈夫曼树的权重值越大越靠近根节点，权重越低越远离根节点，这样权重大的哈夫曼编码短，权重小的哈夫曼编码长。也就表示权重大的词路径越短，权重小的词路径越长。

对于词的权重，取每个词的词频作为权重构建哈夫曼树。常用词离根节点距离越短，计算量就越少。假如词典确定情况下，首先通过词频构建一颗哈夫曼树，并获得每个词的哈夫曼编码。

二、Hierarchical Softmax

基于传统神经网络的词向量语言模型，包含输入层、隐藏层和输出层，只是去掉了激活层。由于输出层通过softmax计算概率，计算量较大，为了减少计算量，使用哈夫曼树代替原来的softmax，可以大大减少了计算量。整体结构也发生了变化，去掉了之前输入层和隐藏层之间映射，词向量随机初始化，而且多个词向量采取求和取平均的方式。例如，输入的是三个4维词向量：(1,2,3,4),(9,6,11,8),(5,10,7,12),那么我们求和取平均后的词向量就是(5,6,7,8)。

1、哈夫曼树如何代替softmax？

我们可以把哈夫曼树的父节点（图中黄点）理解为原来神经网络语言模型的隐藏层神经元，叶子节点理解为输出层Softmax的神经元。

哈夫曼树的输出需要按照树结构一步一步往下走，一直找到叶子节点，因为每个父节点包含左右两个子节点，往左走为1，网右走为0。因此，走到叶子节点的路径都包含一个唯一哈夫曼编码，判断0和1输出使用sigmoid函数：

其中， $x_{w}^T$ 为词向量， $\theta$ 为模型参数。其实就是用多个独立的二分类代替了softmax的作用，假设原来softmax计算量为 $V$ ，变成了 $Log_{2} V$ 。同时高频词靠近根节点，可以用更少的时间找到。

2、具体流程是什么样子呢？

这里以基于Hierarchical Softmax的CBOW模型为例。如下图

（1）首先如上述，需要对我们的词典表构建一个哈夫曼树，并记录每个词的哈夫曼编码

（2）设置固定窗口大小，取2C个词的词向量求和取平均（与之前讲过神经网络语言模型的One hot不同，这里的词向量是随机初始化的）

（3）通过梯度更新网络参数和词向量

如何更新参数和词向量，就是下面要介绍的梯度推导。

三、Hierarchical Softmax梯度推导

怎么输出真实叶子节点的概率和更新参数呢？使用概率公式和极大似然函数进行更新。哈夫曼树中某一条路径上的节点都是相对独立的二分类，所以可以通过每个节点概率相乘的方式表示叶子节点的概率。假设路径上有三个节点，即：

每单个节点的概率表达式如下：

其中， $x_{w}$ 为词向量， $\theta ^w$ 为节点参数， $d^w$ 为哈夫曼编码值。因此最后的似然函数为：

对词向量 $x_{w}$ 和模型参数 $\theta ^w$ 求导，得：

最后编辑于：2020.11.18 11:05:24

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 213,928评论 6赞 493
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 91,192评论 3赞 387
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 159,468评论 0赞 349
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 57,186评论 1赞 286
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 66,295评论 6赞 386
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 50,374评论 1赞 292
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 39,403评论 3赞 412
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,186评论 0赞 269
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 44,610评论 1赞 306
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 36,906评论 2赞 328
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,075评论 1赞 341
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 34,755评论 4赞 337
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 40,393评论 3赞 320
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,079评论 0赞 21
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,313评论 1赞 267
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 46,934评论 2赞 365
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 43,963评论 2赞 351

Word2vec：Hierarchical Softmax训练

一、哈夫曼树

二、Hierarchical Softmax

三、Hierarchical Softmax梯度推导

推荐阅读更多精彩内容