word2vec 中CBOW和skip-gram随笔

神经网络处理文本时处理的为数据元素不能直接处理文本,因此考虑将文本转换成数字,起初使用one-hot对词进行表示,但存在着稀疏的缺点,因此使用词向量的形式进行表示词。
word2vec有两种生成词向量的方式,CBOW和skip-gram
CBOW是输入上下文one-hot形式,输出需要预测的词的one-hot形式,相当于一个多分类。
skip-gram是输入one-hoe形式,输出一个多词的0-1值形式,相当于一个多标签。
CBOW和skip-gram训练参数有一个[词汇数,词向量维度]的矩阵,这个矩阵就是我们所需要的词向量。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容