语料库，词库，词向量白嫖

对于word2vec和GloVe这样的词嵌入学习算法，需要大量的文本语料库以便训练出高质量的词向量。

该篇文章作为福利，给大伙收集预料地址。

的确，不同的语言单独训练模型会有侧重效果，本文也会对英文和中文语料库推荐。

最后，为大家推荐训练好的，预训练的多维词向量。 💯

英文语料库

Wikipedia Dump: 维基百科是一个包含丰富文本的资源库，适用于训练词向量模型。

链接: https://dumps.wikimedia.org/

Common Crawl: 这是一个包含网络上大量文本数据的语料库，非常适用于需要大规模数据的训练。

链接: https://commoncrawl.org/

Gutenberg Project: 为研究提供了大量免费电子书的文本，适合文学和语言研究。

链接: http://www.gutenberg.org/

The Billion Word Benchmark: 其中包含了大约30亿个单词的文本。是一个常用的语料库，特别是在自然语言处理中。

链接: https://www.statmt.org/lm-benchmark/

WebText2: OpenAI发布的一个较大的英文网页文本数据集，用于训练语言模型。

注: 目前可能需要通过OpenAI申请访问。

中文语料库

中文维基百科: 维基百科的中文版本同样也是一个非常好的词向量训练语料库。

链接: https://dumps.wikimedia.org/zhwiki/latest/

搜狗实验室资源: 提供新闻等分类语料库，适合做特定领域的词向量学习。

链接: http://www.sogou.com/labs/resource/ca.php

Chinese Text Project: 网站收集了大量的古典文学文本，适用于古文或文学领域的语料库需求。

链接: https://ctext.org

人民日报语料库: 包含了多年的新闻报道文本，但这些通常与版权有关，需要合法使用。

注: 可能需联系版权方获取。

当然，借助一些通用爬虫，垂直爬虫能丰富你的语料库，这是一个值得参考的方案。

https://www.processon.com/view/61e036201efad4259c62408c

https://www.processon.com/view/622c3cd65653bb074b12e896

说说词向量库

对于现成的词向量资源，以下是一些英文和中文的预训练词向量推荐：

一开始接触NLP，就在想有没有分别对各种语言生成的完美词向量库，甚至是人类语言的高维全部词向量库。这样大家在NLP, LLM中的开发和应用就会变得十分带劲。根据需求去裁剪，降维。这块有好的推荐大神，请不吝啬留言分享：👏

Google News Word2Vec: 使用约3亿个英文单词从谷歌新闻数据集上训练而成的word2vec词向量。

链接: https://code.google.com/archive/p/word2vec/

GloVe Twitter和Wikipedia预训练词向量: Stanford NLP组提供了在不同语料上预训练的GloVe词向量。

链接: https://nlp.stanford.edu/projects/glove/

fastText预训练词向量: Facebook AI Research 提供了在大型语料库上预训练的word2vec兼容的fastText模型。

链接: https://fasttext.cc/docs/en/pretrained-vectors.html

中文GloVe和Word2Vec预训练词向量: 可能在一些中文NLP研究站点和Github项目中找到预训练的中文词向量。

伟大的Github：Embedding/Chinese-Word-Vectors

链接：https://github.com/Embedding/Chinese-Word-Vectors

预训练模型

Google原版bertQ:

https://github.com/google-research/bert

中文XLNET预训练模型:

https://github.com/ymcui/Chinese-XLNetQ(只有TensorFlow需转化)orhtps:/huggingface.cohflchinese-xlnet-base/tree/main (pytorch版本需下载)可参照:htps:/www.bilibili.com/read/cv8231417/

中文BERT预训练模型:https://storage.googleapis.com/bert models/20181103/chinese_L-12_H-768 A-12.zip

中文MacBERT预训练模型:https://github.com/ymcui/MacBERT

中文ELECTRA预训练模型:https://github.com/ymcui/Chinese-ELECTRA

中文BERT-wwm预训练模型:https://github.com/ymcui/Chinese-BERT-wwm

中文RoBERTa预训练模型:https://github.com/brightmart/roberta zh

欢迎点赞，收藏，转发，打赏

http://boxes.box.devops-link.online/

https://www.processon.com/u/61e02f7c0e3e7441577e51dc

语料库，词库，词向量白嫖