要想词向量模型能够继续训练,首先要保证用model.save()方法保存;
然后再用model=gensim.models.Word2Vec.load()加载模型
model.train() 只可以设置增加新语料,设置迭代次数
提问:BrownCorpus,Text8Corpus或lineSentence 这三者的区别是什么?
BrownCorpus是一个语料库
Test8Corpus是另一个语料库,可以通过链接http://mattmahoney.net/dc/text8.zip下载
LineSentence是处理已经切分好的,且用空格切分的句子
提问:word2vec对于评论数据集(即,就几十个字的短文本)能否训练出词向量?word2vec可以做到识别一行为一句短文本从而训练吗? ---答:当然可以。
用以下代码和以下数据格式:
注:看word2vec的源码中的注释就可以知道,word2vec是按句子来处理的Sentences(句子们),就算是一个大的文本,它也会给你自动切分成句子,按句子来训练模型。 word2vec提供了很多有用的方法,基本上跳入源码中看看注释,基本上就能明白,函数的输入格式,和输出格式,再加上百度百度就能了解word2vec更多,也会掌握得更好。
如果按照我的代码来,这里就会得到字向量。 如果你要得到词向量,那么tokens.append()这里应该是放的词组,你用jieba或其他分词工具,将line切分,然后把切分的词放在tokens.append()里,候选训练得到的就是词向量。