Wrod2vec算法_3分钟热情学NLP第4篇

第4篇:3分钟热情学NLP,word2vec

在NLP领域,文本表示是第1步,也是很重要的1步。所谓文本表示,即如何把自然语言的语言符号,转化成计算机能够处理的数字。

文本向量化.png

1、文本向量化

现阶段,文本向量化,大部分是通过词向量化来实现的;也有一部分算法,将整篇文章或整条句子作为最小处理单位来实现文本向量化,如doc2vec;

1.1、独热编码one-hot

one-hot编码,是最直观的1个词表示方式。构建1个文本词典,每个分词是1个比特值,比特值为0或1。

动物特征可表示为:
猴子:01
老虎:10
熊猫:11

植物的特征可表示为:
桃树:001
苹果树:010
……

水果类特征可表示为
苹果:0001
香蕉:0010
葡萄:0011
芒果:0100
木瓜:0101
桃:0110
……
如果表示1句话[“猴子”,“桃树”,“桃”],用数字化表示即为;
[0,1,0,0,1,0,1,1,0]
以上,就是one-hot的表示方式。如果1篇文章由1000个词,那么每个词汇都要用1000维向量来表示,而且每个词汇只有1个位置为“1”,其他999个位置为“0”,相应地有1万个词,就要用1万维向量来表示,每个词都是茫茫0海中的一个“1”。

the cat sat on the mat 可表示为:

the cat sat on the mat

one-hot的主要缺点:
1、随着语料库的增加,数据特征的维度会越来越大,而且得到的是1个非常稀疏的矩阵。几万甚至十几万维的向量,会造成维数爆炸,计算机会受不了。
2、每个词汇向量之间是无关的;

1.2、词袋模型BOW(bag of words)

词袋模型,将文本抽象成1个装满“词”的袋子,不考虑词的顺序、上下文或语法,只记录这个词出现的次数(进行累加);
the cat sat on the mat 可表示为:
[2,1,1,1,1]#单词the,出现了2次;

John likes to watch cricket. Chris likes cricket too 可表示为:
[1, 2, 1, 1, 2, 1, 1, 0, 0],#单词likes 和 cricket均出现了2次。

1.3、词嵌入 Word Embedding(或称词向量)

摘录1段知乎的回复https://www.zhihu.com/question/40309730/answer/86453469

理解 前面提过,one-hot表示法具有维度过大的缺点,那么现在将vector做一些改进:1、将vector每一个元素由整形改为浮点型,变为整个实数范围的表示;2、将原来稀疏的巨大维度压缩嵌入到一个更小维度的空间。如图示:


词嵌入示意

以上,就是词嵌入名字的由来。

Word Embedding 矩阵给每个单词分配1个固定长度的向量表示,并且这个矩阵长度可以自行设置,可以设置1个远小于词典长度的长处,比如设置为500;
词与词之间的夹角值(向量之前的余弦值),可以反映词之间的关系。

在本文中,“词嵌入”与“词向量”这2个词等价。

2 词向量算法word2vec

word2vec算法,是2013年起很火的Word Embedding 模型,后面比较火的还有 glove。

在一定范围内,word2vec成了词向量的1个代名词,甚至直接等价于词向量。

word2vec模型,包括2种训练模型:CBOW(Continuous Bag-of-Words Model)模型和Skip-gram(Continuous Skip-Gram Model)模型

备注:
1、word2vec 和 glove,均不需要标注。
2、word2vec论文https://arxiv.org/abs/1301.3781
3、参考网址:
https://www.cnblogs.com/jiangxinyang/p/9332769.html
https://www.cnblogs.com/jiangxinyang/p/10207273.html

2.1 word2vec之CBOW模型

一句话解释:利用上下文来预测当前的词。

CBOW模型

第1层是输入层,输入的值是上下文的one-hot编码;
隐藏层对输出值做了权值加法,没有激活函数进行非线性的转换;
输出值的维度和输入值的维度是一致的。

2.2 word2vec之Skip-gram模型

一句话解释:用当前词来预测上下文


Skip-gram模型

第1层是输入层,输入值是中心词的one-hot编码;
隐藏层只是做线性转换;
输出的是输出值的softmax转换后的概率。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,997评论 6 502
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,603评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 163,359评论 0 353
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,309评论 1 292
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,346评论 6 390
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,258评论 1 300
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,122评论 3 418
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,970评论 0 275
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,403评论 1 313
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,596评论 3 334
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,769评论 1 348
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,464评论 5 344
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,075评论 3 327
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,705评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,848评论 1 269
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,831评论 2 370
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,678评论 2 354

推荐阅读更多精彩内容