预训练好的词向量资源

词向量是用来表示词的向量，通常也被认为是词的特征向量。现在已经成为自然语言处理的基础技术。词向量的好坏，会直接影响模型的实验结果，对于没有GPU资源的人来，训练词向量是一个很消耗时间的过程，训练好的词向量还不一定好。所以，本文列举出一些公开的训练好的词向量资源链接。

中文词向量

网址链接：

https://github.com/Embedding/Chinese-Word-Vectors

该项目提供了100多个不同的表示（密集和稀疏）、上下文特征（单词、Ngram、字符等）和语料库训练的中文单词向量。可以容易地获得具有不同属性的预训练向量，并将其用于自然语言处理的各种任务任务。

英文词向量

网址链接：

https://nlp.stanford.edu/projects/glove/

这个词向量是使用GloVe训练的，如上图所示，有Wikipedia 2014 + Gigaword5、Common Crawl、Twitter语料训练的各种维度词向量。

网页链接：

https://fasttext.cc/docs/en/english-vectors.html

使用FastText训练的词向量。另外还提供了包括中文在内的157种语言训练好的词向量，提供了txt和bin格式。

网址链接：

https://github.com/xgli/word2vec-api

使用Gensim训练的词向量，提供API接口，还支持本地下载，支持的格式有txt和bin格式。

更多关注公众号：自然语言处理与深度学习技术【DeepNLP】

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。