这里做一个概述,主要介绍我遇到过得坑~
1.关于平台
首先我想说的是平台,也就是windows和linux。我之前自己电脑一直是windows,装tensorflow和其他一些工具也喜欢极力寻找windows的安装和解决办法,总是认为windows比较容易使用,并且认为任何东西都可以找到windows的解决办法,事实上不是这样,也很没有必要。
我想说的是windows越到后面越來越体现出他的坑,开始使用linux会发现,世界如此简单。
所以关于word2vec词向量的训练方面我也没有考虑windows,倒是在网上有几篇文章可供参考。
linux下训练是非常极其相当简单的。
2.关于两种几种语言的训练方法
word2vec有好几种语言的版本,官方应该是C和C++,但是这个东西移植太简单了,所以也不必在意。
但是我遇到的问题是:
使用C语言版训练的词向量,在python中无法使用,无论是二进制文件还是txt文件
所以,我用了gensim也就是python版的训练,可以使用
3.关于中文
顺序大概就是:选择语料库->分词->训练
当然分词当中还有一些操作,比如去重用,去标点符号,添加自定义词等等。
下面开始记录我训练的过程。