对于word2vec和GloVe这样的词嵌入学习算法,需要大量的文本语料库以便训练出高质量的词向量。
该篇文章作为福利,给大伙收集预料地址。
的确,不同的语言单独训练模型会有侧重效果,本文也会对英文和中文语料库推荐。
最后,为大家推荐训练好的,预训练的多维词向量。 💯
英文语料库
Wikipedia Dump: 维基百科是一个包含丰富文本的资源库,适用于训练词向量模型。
链接: https://dumps.wikimedia.org/
Common Crawl: 这是一个包含网络上大量文本数据的语料库,非常适用于需要大规模数据的训练。
Gutenberg Project: 为研究提供了大量免费电子书的文本,适合文学和语言研究。
The Billion Word Benchmark: 其中包含了大约30亿个单词的文本。是一个常用的语料库,特别是在自然语言处理中。
链接: https://www.statmt.org/lm-benchmark/
WebText2: OpenAI发布的一个较大的英文网页文本数据集,用于训练语言模型。
注: 目前可能需要通过OpenAI申请访问。
中文语料库
中文维基百科: 维基百科的中文版本同样也是一个非常好的词向量训练语料库。
链接: https://dumps.wikimedia.org/zhwiki/latest/
搜狗实验室资源: 提供新闻等分类语料库,适合做特定领域的词向量学习。
链接: http://www.sogou.com/labs/resource/ca.php
Chinese Text Project: 网站收集了大量的古典文学文本,适用于古文或文学领域的语料库需求。
人民日报语料库: 包含了多年的新闻报道文本,但这些通常与版权有关,需要合法使用。
注: 可能需联系版权方获取。
当然,借助一些通用爬虫,垂直爬虫能丰富你的语料库,这是一个值得参考的方案。
https://www.processon.com/view/61e036201efad4259c62408c
https://www.processon.com/view/622c3cd65653bb074b12e896
说说词向量库
对于现成的词向量资源,以下是一些英文和中文的预训练词向量推荐:
一开始接触NLP,就在想有没有分别对各种语言生成的完美词向量库,甚至是人类语言的高维全部词向量库。这样大家在NLP, LLM中的开发和应用就会变得十分带劲。根据需求去裁剪,降维。这块有好的推荐大神,请不吝啬留言分享:👏
Google News Word2Vec: 使用约3亿个英文单词从谷歌新闻数据集上训练而成的word2vec词向量。
链接: https://code.google.com/archive/p/word2vec/
GloVe Twitter和Wikipedia预训练词向量: Stanford NLP组提供了在不同语料上预训练的GloVe词向量。
链接: https://nlp.stanford.edu/projects/glove/
fastText预训练词向量: Facebook AI Research 提供了在大型语料库上预训练的word2vec兼容的fastText模型。
链接: https://fasttext.cc/docs/en/pretrained-vectors.html
中文GloVe和Word2Vec预训练词向量: 可能在一些中文NLP研究站点和Github项目中找到预训练的中文词向量。
伟大的Github:Embedding/Chinese-Word-Vectors
链接:https://github.com/Embedding/Chinese-Word-Vectors
预训练模型
Google原版bertQ:
https://github.com/google-research/bert
中文XLNET预训练模型:
https://github.com/ymcui/Chinese-XLNetQ(只有TensorFlow需转化)orhtps:/huggingface.cohflchinese-xlnet-base/tree/main (pytorch版本需下载)可参照:htps:/www.bilibili.com/read/cv8231417/
中文BERT预训练模型:https://storage.googleapis.com/bert models/20181103/chinese_L-12_H-768 A-12.zip
中文MacBERT预训练模型:https://github.com/ymcui/MacBERT
中文ELECTRA预训练模型:https://github.com/ymcui/Chinese-ELECTRA
中文BERT-wwm预训练模型:https://github.com/ymcui/Chinese-BERT-wwm
中文RoBERTa预训练模型:https://github.com/brightmart/roberta zh
欢迎点赞,收藏,转发,打赏
http://boxes.box.devops-link.online/
https://www.processon.com/u/61e02f7c0e3e7441577e51dc