自然语言处理-文本特征抽取（二）

接上一篇文章，可以发现上一篇文本特征抽取的方式的弊端:1 无法衡量词向量之间的关系，即词频无法表达上下文的意思，无法表达语义; 2 词表维度随着预料库的增长而膨胀；3 数据稀疏问题等等，下边来说下我个人理解的word2vec的原理。

word2vec的中心思想:用一个词附近的其他词来表示该词。

1. 从NNLM说起

NNLM的特点：
1.直接从语言模型出发，将模型最优化的过程转化为求词向量表示的过程（跟word2vec类似）。
2.使用了非堆成的前向窗函数， 窗口长度为n-1，用来求第n个词的词向量（word2vec是对称窗口）。 
3.滑动窗口遍历整个预料库求和， 计算量与语料库呈线性关系。
4概率P满足归一条件， 不同位置t处的概率才能相加，

概率关系公式

NNLM结构图

其中输入层是one-hot编码，然后经过C权重矩阵，得到表示这句话n-1个词的词性量，形成投影层。然后以投影层作为输入层，进行全连接，然后经过传递函数tahn，将数据压缩到-1~1之间。再然后通过softmax分类器，预测每个词出现的概率有多大。再训练的过程中，因为我们有标准答案，如果预测出来的不准确，就可以通过定义一个交叉熵损失函数来计算损失，通过BP算法来调整参数C。

2.word2vec-CBOW模型

2.1 word2vec有两个模型

2.1.1 CBOW: 选词填空，即通过周围的词预测中心的词。

CBOW模型结构图

2.1.2 Skip-Gram:词语造句，即通过中心的词预测周围的词。

Skip-Gram模型结构图

2.2 CBOW模型：

CBOW模型的特点(与NNLM相比)：
1.无隐层
2.始用双向上下文窗口
3.上下文词序无关
4.输入层直接始用低维稠密向量表示
5.投影层简化为求和/求平均

  模型流程：
  输入的是初始化的向量， 然后通过中心词周围的词进行向量求和，然后进行softmax激活函数找到概率最大词的词向量，
但实际上，如果词表在十万级、百万级以上那么计算量依然很大，so，Google的工程师怎么能忍呢， 所以， 这一步做了优
化，优化的方式有两种，层次softmax（Hierarchical Softmax）和负例采样(Negative Sampling)。

2.2.1 层次softmax

为了避免要计算所有词的softmax的概率， word2vec通过建立树结构，把之前所有都要计算的从输出softmax层的概率计算变成了Huffman Tree，那么我们的softmax概率把之前所有都要计算的从输出softmax层的概率计算变成了一颗二叉Huffman Tree，那么只需要沿着树的结构计算softmax概率就可以了。那么怎么计算的呢？

根据词频建立的Huffman Tree，词频越高越靠近根节点。这样，高频词就需要更少的时间找到。每次寻找词，就是从根节点出发，到达目标节点，经历多次分支，每一次分支都是一个二分类。对于每一个非叶子节点，需要对其左右孩子指定一个类别，即往左走是负类（霍夫曼树编码1），往右走是正类（霍夫曼树编码0）。判断正负类的方法是sigmoid函数。然后将经过走过的分支的概率连乘，然后推导最大似然函数，这就是CBOW的目标函数， word2vec中用的随机梯度上升法进行优化。

Huffman Tree结构图

Huffman Tree的优缺点：
优点：只需要计算路径上所有非叶子节点词向量的贡献计算量降为树的深度：V =>log_2(V)（以2为底的）
缺点：当出现一个较为生僻的词语时，建立的树深也是相当大的。

2.2.2负例采样。

在训练的过程中，给定的词就是正样本，其他的词就是负样本。负例采样，就是从负样本中带权采样选取负例样本。

在word2vec中，将词语按词频非等距剖分区间[0,1], 然后将将区间[0,1]等距剖分成10^8份，那么每次在[1, 10^8-1]间随机生成一个整数，看看这个整数对应的点，选出该词。如果选中的词是正样本，则跳过重来。

负例采样图示

参考文章：CSDN作者 peghoty：word2vec 中的数学原理详解
注：这篇文章讲解的word2vec原理十分详尽，我的文章中多有参考。请各位观众老爷多读一下，受益匪浅！！

3. python中始用word2vec

在python中始用word2vec需要安装gensim，直接pip进行安装即可，下边简单说下里边有word2vec的始用。

# coding:utf-8
import logging
from gensim.models import word2vec
import jieba
import re

# 设置log
logging.basicConfig(format='%(asctime)s : %(levelname)s : %(message)s',
                level=logging.INFO)

# 1.载入中文预料， 提前下载的小说  笑傲江湖
with open('test2.txt', 'r', encoding='GB18030') as f:
    strl = f.read()

# 2.进行结巴分词，以及词语处理
se = r'[。|，|《|》|？|、| …|“|：|”|\n|；|〉|〈|！|—]'

strs = re.sub(se, '', strl)
word_list = ' '.join(jieba.lcut(strs))
with open('words.txt', 'w') as f:
    f.write(word_list)

# 3.进行word2vec训练
kk = word2vec.LineSentence('words.txt') # words.txt 中是已经分好的词
model = word2vec.Word2Vec(kk, size=300, hs=1, min_count=1, window=8)
model.save('w2v.model')  # 模型保存

# 5.分析学习预料结果， 分析学习结果只能看到与相关词相近的词的
ll = model.similar_by_word('林平之', topn=10)
for l in ll:
    print(l)

打印结果如下(词语我基本上没有怎么处理， 所以有一些奇怪的词)：
[('林平之', 1.0)]
('岳夫人', 0.8563535809516907)
('岳灵珊', 0.8548020124435425)
('令狐冲', 0.8265422582626343)
('林震南', 0.772672176361084)
('黑白子', 0.7664175629615784)
('岳不群', 0.7499867677688599)
('令狐冲大', 0.7397817969322205)
('劳德诺', 0.7388935685157776)
('陆大有', 0.733953595161438)
('杨莲亭', 0.729798436164856)

3.1 有关Word2Vec中的参数：

Word2Vec参数

Word2Vec中的参数详解：
sentences      ：可以是一个可迭代的数据类型，对于大语料集，建议使用BrownCorpus,Text8Corpus或LineSentence构建。
size           ：初始化特征向量的维数， 大的数据建议使用300-500(来自一位大佬的建议)。
alpha          ：初始学习率。
min_alpha      ：最小学习率， 随着训练的进行，学习率将线性下降到“min_alpha”。
window         ：窗口大小， 即取词半径。
min_count      ：忽略低于此词频的词。
max_vocab_size ：限制词汇构建过程中的RAM;如果所有独立单词个数超过这个，则就消除掉其中最不频繁的一个。每一千万个单词需要大约1GB的RAM。设置成None则没有限制。
sample         ：高频词汇的随机降采样的配置阈值，有效范围为(0,1e -5)
seed           ：为随机数生成器种子。默认为1。每个单词的初始向量都被散列单词+ '     str(seed) '的接。
workers        ：多线程训练模型。首先你的电脑得是多核的。
sg             ：选择训练算法，1： skip-gram。 0： CBOW。默认为0。
hs             ：1：使用层次softmax。 0: 使用负例采样。默认是0。
negative       ：如果大于0， 则使用负例采样， 数字对应的是采用的噪声词的个数， 通常设置为5～20， 默认为5。
cbow_mean       ：如果为0，则使用上下文单词向量的和。如果1，使用平均值，只适用于使用cbow时。默认是1。
hashfxn         ：哈希函数用于随机初始化权重。
iter            ：在语料库上的迭代次数(epochs)。默认是5。
trim_rule       ：用于设置词汇表的整理规则，指定那些单词要留下，哪些要被删除。默认为None， 表示使用min_count。
sorted_vocab    ：如果是1，在分配单词索引之前，按降序频率对词汇表进行排序。
batch_words     ：每一批的传递给线程的单词的数量，默认为    MAX_WORDS_IN_BATCH。MAX_WORDS_IN_BATCH=10000。
compute_loss    ：如果为True，则计算并存储可以使用“model.get_latest_training_loss()”检索的损失值。默认为Flase。
callbacks       ：在训练过程中需要执行的回调列表。

参考文章：CSDN作者 peghoty - word2vec 中的数学原理详解
 参考文章：gensim文档

`注：以上就是我对word2vec的一些理解，由于我也是初学，对一些理论理解的还并不是很透彻，怕是误导读者老爷，也请读者老爷多多指正。经过学习不难发现，word2vec虽然实现了局部上下文(窗口大小)的语义的理解，说白了没有实现全局的语义统计。当然我们是站在巨人的肩膀上的，GloVe(Global Vectors)请各位读者老爷了解一下。人生苦短....`

本人水平有限，如有错误欢迎提出指正！如有参考，请注明出处！！禁止原文抄袭，遇抄必肛！！！

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 217,657评论 6赞 505
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,889评论 3赞 394
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 164,057评论 0赞 354
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,509评论 1赞 293
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,562评论 6赞 392
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,443评论 1赞 302
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,251评论 3赞 418
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,129评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,561评论 1赞 314
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,779评论 3赞 335
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,902评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,621评论 5赞 345
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,220评论 3赞 328
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,838评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,971评论 1赞 269
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,025评论 2赞 370
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,843评论 2赞 354