1.首先到斯坦福GloVe开源代码gihub地址下载代码。
2.把自己的训练集放到GloVe文件夹目录下。注意,训练集里每一行是一句话或者一段话,每个词之间用空格隔开,当然训练字向量的话每个字之间用空格隔开。英语的话本身已经隔开,中文训练词向量的话需要先自己分词。
4.打开GloVe下的demo.sh
文件,把第8到16行代码注释掉,因为这是加载斯坦福的英语训练集的代码,我们要自己训练词向量就不需要了。
5.然后把第18行代码
CORPUS=自己训练集的名字.txt
还可以调整26-32行的参数。设置窗口大小,训练轮次等。
6.在终端输入编译指令:
make
然后输入运行指令进行训练:
bash demo.sh
7.最后会在文件夹里得到vectors.txt
, 这就是词向量啦,里面每一行都是词及其向量。
对你有帮助的话点一下“喜欢”呗,谢谢。