接上一篇文章, 可以发现上一篇文本特征抽取的方式的弊端:1 无法衡量词向量之间的关系, 即词频无法表达上下文的意思,无法表达语义; 2 词表维度随着预料库的增长而膨胀;3 数据稀疏问题等等,下边来说下我个人理解的word2vec的原理。
word2vec的中心思想:用一个词附近的其他词来表示该词。
1. 从NNLM说起
NNLM的特点:
1.直接从语言模型出发,将模型最优化的过程转化为求词向量表示的过程(跟word2vec类似)。
2.使用了非堆成的前向窗函数, 窗口长度为n-1,用来求第n个词的词向量(word2vec是对称窗口)。
3.滑动窗口遍历整个预料库求和, 计算量与语料库呈线性关系。
4概率P满足归一条件, 不同位置t处的概率才能相加,
概率关系公式
NNLM结构图
其中输入层是one-hot编码, 然后经过C权重矩阵,得到表示这句话n-1个词的词性量,形成投影层。然后以投影层作为输入层,进行全连接, 然后经过传递函数tahn,将数据压缩到-1~1之间。再然后通过softmax分类器,预测每个词出现的概率有多大。再训练的过程中,因为我们有标准答案,如果预测出来的不准确,就可以通过定义一个交叉熵损失函数来计算损失,通过BP算法来调整参数C。
2.word2vec-CBOW模型
2.1 word2vec有两个模型
2.1.1 CBOW: 选词填空,即通过周围的词预测中心的词。
CBOW模型结构图
2.1.2 Skip-Gram:词语造句,即通过中心的词预测周围的词 。
Skip-Gram模型结构图
2.2 CBOW模型:
CBOW模型的特点(与NNLM相比):
1.无隐层
2.始用双向上下文窗口
3.上下文词序无关
4.输入层直接始用低维稠密向量表示
5.投影层简化为求和/求平均
模型流程:
输入的是初始化的向量, 然后通过中心词周围的词进行向量求和,然后进行softmax激活函数找到概率最大词的词向量,
但实际上,如果词表在十万级、百万级以上那么计算量依然很大,so,Google的工程师怎么能忍呢, 所以, 这一步做了优
化,优化的方式有两种,层次softmax(Hierarchical Softmax)和负例采样(Negative Sampling)。
2.2.1 层次softmax
为了避免要计算所有词的softmax的概率, word2vec通过建立树结构,把之前所有都要计算的从输出softmax层的概率计算变成了Huffman Tree,那么我们的softmax概率把之前所有都要计算的从输出softmax层的概率计算变成了一颗二叉Huffman Tree,那么只需要沿着树的结构计算softmax概率就可以了。那么怎么计算的呢?
根据词频建立的Huffman Tree, 词频越高越靠近根节点。这样, 高频词就需要更少的时间找到。每次寻找词, 就是从根节点出发, 到达目标节点, 经历多次分支, 每一次分支都是一个二分类。对于每一个非叶子节点, 需要对其左右孩子指定一个类别, 即往左走是负类(霍夫曼树编码1), 往右走是正类(霍夫曼树编码0)。判断正负类的方法是sigmoid函数。然后将经过走过的分支的概率连乘, 然后推导最大似然函数,这就是CBOW的目标函数, word2vec中用的随机梯度上升法进行优化。
Huffman Tree结构图
Huffman Tree的优缺点:
优点:只需要计算路径上所有非叶子节点词向量的贡献计算量降为树的深度:V =>log_2(V)(以2为底的)
缺点:当出现一个较为生僻的词语时,建立的树深也是相当大的。
2.2.2负例采样。
在训练的过程中, 给定的词就是正样本,其他的词就是负样本。负例采样, 就是从负样本中带权采样选取负例样本。
在word2vec中,将词语按词频非等距剖分区间[0,1], 然后将将区间[0,1]等距剖分成10^8份,那么每次在[1, 10^8-1]间随机生成一个整数, 看看这个整数对应的点, 选出该词。如果选中的词是正样本, 则跳过重来。
负例采样图示
参考文章:CSDN作者 peghoty:word2vec 中的数学原理详解
注:这篇文章讲解的word2vec原理十分详尽,我的文章中多有参考。请各位观众老爷多读一下,受益匪浅!!
3. python中始用word2vec
在python中始用word2vec需要安装gensim,直接pip进行安装即可,下边简单说下里边有word2vec的始用。
# coding:utf-8
import logging
from gensim.models import word2vec
import jieba
import re
# 设置log
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',
level=logging.INFO)
# 1.载入中文预料, 提前下载的小说 笑傲江湖
with open('test2.txt', 'r', encoding='GB18030') as f:
strl = f.read()
# 2.进行结巴分词,以及词语处理
se = r'[。|,|《|》|?|、| …|“|:|”|\n|;|〉|〈|!|—]'
strs = re.sub(se, '', strl)
word_list = ' '.join(jieba.lcut(strs))
with open('words.txt', 'w') as f:
f.write(word_list)
# 3.进行word2vec训练
kk = word2vec.LineSentence('words.txt') # words.txt 中是已经分好的词
model = word2vec.Word2Vec(kk, size=300, hs=1, min_count=1, window=8)
model.save('w2v.model') # 模型保存
# 5.分析学习预料结果, 分析学习结果只能看到与相关词相近的词的
ll = model.similar_by_word('林平之', topn=10)
for l in ll:
print(l)
打印结果如下(词语我基本上没有怎么处理, 所以有一些奇怪的词):
[('林平之', 1.0)]
('岳夫人', 0.8563535809516907)
('岳灵珊', 0.8548020124435425)
('令狐冲', 0.8265422582626343)
('林震南', 0.772672176361084)
('黑白子', 0.7664175629615784)
('岳不群', 0.7499867677688599)
('令狐冲大', 0.7397817969322205)
('劳德诺', 0.7388935685157776)
('陆大有', 0.733953595161438)
('杨莲亭', 0.729798436164856)
3.1 有关Word2Vec中的参数:
Word2Vec参数
Word2Vec中的参数详解:
sentences :可以是一个可迭代的数据类型,对于大语料集,建议使用BrownCorpus,Text8Corpus或LineSentence构建。
size :初始化特征向量的维数, 大的数据建议使用300-500(来自一位大佬的建议)。
alpha :初始学习率。
min_alpha :最小学习率, 随着训练的进行,学习率将线性下降到“min_alpha”。
window :窗口大小, 即取词半径。
min_count :忽略低于此词频的词。
max_vocab_size :限制词汇构建过程中的RAM;如果所有独立单词个数超过这个,则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。
sample :高频词汇的随机降采样的配置阈值,有效范围为(0,1e -5)
seed :为随机数生成器种子。默认为1。每个单词的初始向量都被散列单词+ ' str(seed) '的接。
workers :多线程训练模型。首先你的电脑得是多核的。
sg :选择训练算法,1: skip-gram。 0: CBOW。默认为0。
hs :1:使用层次softmax。 0: 使用负例采样。默认是0。
negative :如果大于0, 则使用负例采样, 数字对应的是采用的噪声词的个数, 通常设置为5~20, 默认为5。
cbow_mean :如果为0,则使用上下文单词向量的和。如果1,使用平均值,只适用于使用cbow时。默认是1。
hashfxn :哈希函数用于随机初始化权重。
iter :在语料库上的迭代次数(epochs)。默认是5。
trim_rule :用于设置词汇表的整理规则,指定那些单词要留下,哪些要被删除。默认为None, 表示使用min_count。
sorted_vocab :如果是1,在分配单词索引之前,按降序频率对词汇表进行排序。
batch_words :每一批的传递给线程的单词的数量,默认为 MAX_WORDS_IN_BATCH。MAX_WORDS_IN_BATCH=10000。
compute_loss :如果为True,则计算并存储可以使用“model.get_latest_training_loss()”检索的损失值。默认为Flase。
callbacks :在训练过程中需要执行的回调列表。
参考文章:CSDN作者 peghoty - word2vec 中的数学原理详解
参考文章:gensim文档