word2vec词向量训练及使用前的总体概述

这里做一个概述，主要介绍我遇到过得坑～

1.关于平台

首先我想说的是平台，也就是windows和linux。我之前自己电脑一直是windows，装tensorflow和其他一些工具也喜欢极力寻找windows的安装和解决办法，总是认为windows比较容易使用，并且认为任何东西都可以找到windows的解决办法，事实上不是这样，也很没有必要。

我想说的是windows越到后面越來越体现出他的坑，开始使用linux会发现，世界如此简单。

所以关于word2vec词向量的训练方面我也没有考虑windows，倒是在网上有几篇文章可供参考。

linux下训练是非常极其相当简单的。

2.关于两种几种语言的训练方法

word2vec有好几种语言的版本，官方应该是C和C++，但是这个东西移植太简单了，所以也不必在意。

但是我遇到的问题是：

使用C语言版训练的词向量，在python中无法使用，无论是二进制文件还是txt文件

所以，我用了gensim也就是python版的训练，可以使用

3.关于中文

顺序大概就是：选择语料库->分词->训练

当然分词当中还有一些操作，比如去重用，去标点符号，添加自定义词等等。

下面开始记录我训练的过程。

最后编辑于：2017.12.10 00:31:19

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。