预训练好的词向量资源

词向量是用来表示词的向量,通常也被认为是词的特征向量。现在已经成为自然语言处理的基础技术。词向量的好坏,会直接影响模型的实验结果,对于没有GPU资源的人来,训练词向量是一个很消耗时间的过程,训练好的词向量还不一定好。所以,本文列举出一些公开的训练好的词向量资源链接。

中文词向量

网址链接:

https://github.com/Embedding/Chinese-Word-Vectors

该项目提供了100多个不同的表示(密集和稀疏)、上下文特征(单词、Ngram、字符等)和语料库训练的中文单词向量。可以容易地获得具有不同属性的预训练向量,并将其用于自然语言处理的各种任务任务。

英文词向量

网址链接:

https://nlp.stanford.edu/projects/glove/

这个词向量是使用GloVe训练的,如上图所示,有Wikipedia 2014 + Gigaword5、Common Crawl、Twitter语料训练的各种维度词向量。

网页链接:

https://fasttext.cc/docs/en/english-vectors.html

使用FastText训练的词向量。另外还提供了包括中文在内的157种语言训练好的词向量,提供了txt和bin格式。

网址链接:

https://github.com/xgli/word2vec-api

使用Gensim训练的词向量,提供API接口,还支持本地下载,支持的格式有txt和bin格式。

更多关注公众号:自然语言处理与深度学习技术【DeepNLP】

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容