word2vec模型继续训练continue training

要想词向量模型能够继续训练，首先要保证用model.save()方法保存；

然后再用model=gensim.models.Word2Vec.load()加载模型

model.train() 只可以设置增加新语料，设置迭代次数

词向量训练

词向量继续训练

提问：BrownCorpus,Text8Corpus或lineSentence 这三者的区别是什么？

BrownCorpus是一个语料库

Test8Corpus是另一个语料库，可以通过链接http://mattmahoney.net/dc/text8.zip下载

LineSentence是处理已经切分好的，且用空格切分的句子

提问：word2vec对于评论数据集(即，就几十个字的短文本)能否训练出词向量？word2vec可以做到识别一行为一句短文本从而训练吗？ ---答：当然可以。

用以下代码和以下数据格式：

注：看word2vec的源码中的注释就可以知道，word2vec是按句子来处理的Sentences(句子们)，就算是一个大的文本，它也会给你自动切分成句子，按句子来训练模型。 word2vec提供了很多有用的方法，基本上跳入源码中看看注释，基本上就能明白，函数的输入格式，和输出格式，再加上百度百度就能了解word2vec更多，也会掌握得更好。

如果按照我的代码来，这里就会得到字向量。如果你要得到词向量，那么tokens.append()这里应该是放的词组，你用jieba或其他分词工具，将line切分，然后把切分的词放在tokens.append()里，候选训练得到的就是词向量。

代码

数据格式

word2vec.py 源码

最后编辑于：2019.04.19 10:06:56

word2vec模型继续训练continue training

提问：BrownCorpus,Text8Corpus或lineSentence 这三者的区别是什么？

提问：word2vec对于评论数据集(即，就几十个字的短文本)能否训练出词向量？word2vec可以做到识别一行为一句短文本从而训练吗？ ---答：当然可以。

推荐阅读更多精彩内容