利用语料学习时,首先要解决的问题-将某个词转化为词向量
word2vec工具
英语约1300万词,词向量可以用一个N维的空间来编码所有的单词
两种方法:
One-Hot Representation
将词典的畅读标记为向量的长度,每个词向量分量只有一个1,其余全部是0。一个词对应一个编号
缺点:维数灾难、词汇鸿沟(不能从编号上看出两个词是够存在某种关系,如同义词、反义词)
Distributed Representation
用一个普通向量表示一个词,向量的表示要经过训练,可以用word2vec工具训练。
训练后,每个向量表示一个词,语义之间的相似性可以通过向量间的距离来判断。
应用:机器翻译。