神经网络处理文本时处理的为数据元素不能直接处理文本,因此考虑将文本转换成数字,起初使用one-hot对词进行表示,但存在着稀疏的缺点,因此使用词向量的形式进行表示词。
word2vec有两种生成词向量的方式,CBOW和skip-gram
CBOW是输入上下文one-hot形式,输出需要预测的词的one-hot形式,相当于一个多分类。
skip-gram是输入one-hoe形式,输出一个多词的0-1值形式,相当于一个多标签。
CBOW和skip-gram训练参数有一个[词汇数,词向量维度]的矩阵,这个矩阵就是我们所需要的词向量。
word2vec 中CBOW和skip-gram随笔
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- 前面的文章主要从理论的角度介绍了自然语言人机对话系统所可能涉及到的多个领域的经典模型和基础知识。这篇文章,甚至之后...
- BERT发展史(三)全方位多角度理解Word2Vec 建议先阅读之前两篇文章: BERT发展史(一)从词嵌入讲起 ...
- 关键词:自然语言处理(NLP),词向量(Word Vectors),奇异值分解(Singular Value De...