word2vec词向量训练及使用前的总体概述

这里做一个概述,主要介绍我遇到过得坑~

1.关于平台

首先我想说的是平台,也就是windows和linux。我之前自己电脑一直是windows,装tensorflow和其他一些工具也喜欢极力寻找windows的安装和解决办法,总是认为windows比较容易使用,并且认为任何东西都可以找到windows的解决办法,事实上不是这样,也很没有必要。

我想说的是windows越到后面越來越体现出他的坑,开始使用linux会发现,世界如此简单。

所以关于word2vec词向量的训练方面我也没有考虑windows,倒是在网上有几篇文章可供参考。

linux下训练是非常极其相当简单的。

2.关于两种几种语言的训练方法

word2vec有好几种语言的版本,官方应该是C和C++,但是这个东西移植太简单了,所以也不必在意。

但是我遇到的问题是:

使用C语言版训练的词向量,在python中无法使用,无论是二进制文件还是txt文件

所以,我用了gensim也就是python版的训练,可以使用

3.关于中文

顺序大概就是:选择语料库->分词->训练

当然分词当中还有一些操作,比如去重用,去标点符号,添加自定义词等等。

下面开始记录我训练的过程。


最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容