NLP-词向量

利用语料学习时,首先要解决的问题-将某个词转化为词向量

word2vec工具

英语约1300万词,词向量可以用一个N维的空间来编码所有的单词

两种方法:

One-Hot Representation

将词典的畅读标记为向量的长度,每个词向量分量只有一个1,其余全部是0。一个词对应一个编号

缺点:维数灾难、词汇鸿沟(不能从编号上看出两个词是够存在某种关系,如同义词、反义词)

Distributed Representation

用一个普通向量表示一个词,向量的表示要经过训练,可以用word2vec工具训练。

训练后,每个向量表示一个词,语义之间的相似性可以通过向量间的距离来判断。

应用:机器翻译。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容