word2vec模型继续训练continue training

要想词向量模型能够继续训练,首先要保证用model.save()方法保存;

然后再用model=gensim.models.Word2Vec.load()加载模型

model.train()   只可以设置增加新语料,设置迭代次数

词向量训练
词向量继续训练


提问:BrownCorpus,Text8Corpus或lineSentence 这三者的区别是什么?

BrownCorpus是一个语料库

Test8Corpus是另一个语料库,可以通过链接http://mattmahoney.net/dc/text8.zip下载

LineSentence是处理已经切分好的,且用空格切分的句子


提问:word2vec对于评论数据集(即,就几十个字的短文本)能否训练出词向量?word2vec可以做到识别一行为一句短文本从而训练吗? ---答:当然可以。

用以下代码和以下数据格式:

注:看word2vec的源码中的注释就可以知道,word2vec是按句子来处理的Sentences(句子们),就算是一个大的文本,它也会给你自动切分成句子,按句子来训练模型。      word2vec提供了很多有用的方法,基本上跳入源码中看看注释,基本上就能明白,函数的输入格式,和输出格式,再加上百度百度就能了解word2vec更多,也会掌握得更好。

如果按照我的代码来,这里就会得到字向量。  如果你要得到词向量,那么tokens.append()这里应该是放的词组,你用jieba或其他分词工具,将line切分,然后把切分的词放在tokens.append()里,候选训练得到的就是词向量。

代码
数据格式
word2vec.py 源码
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容