语料库,词库,词向量白嫖

对于word2vec和GloVe这样的词嵌入学习算法,需要大量的文本语料库以便训练出高质量的词向量。

该篇文章作为福利,给大伙收集预料地址。

的确,不同的语言单独训练模型会有侧重效果,本文也会对英文和中文语料库推荐。

最后,为大家推荐训练好的,预训练的多维词向量。 💯


英文语料库

Wikipedia Dump: 维基百科是一个包含丰富文本的资源库,适用于训练词向量模型。

链接: https://dumps.wikimedia.org/

Common Crawl: 这是一个包含网络上大量文本数据的语料库,非常适用于需要大规模数据的训练。

链接: https://commoncrawl.org/

Gutenberg Project: 为研究提供了大量免费电子书的文本,适合文学和语言研究。

链接: http://www.gutenberg.org/

The Billion Word Benchmark: 其中包含了大约30亿个单词的文本。是一个常用的语料库,特别是在自然语言处理中。

链接: https://www.statmt.org/lm-benchmark/

WebText2: OpenAI发布的一个较大的英文网页文本数据集,用于训练语言模型。

注: 目前可能需要通过OpenAI申请访问。


中文语料库

中文维基百科: 维基百科的中文版本同样也是一个非常好的词向量训练语料库。

链接: https://dumps.wikimedia.org/zhwiki/latest/

搜狗实验室资源: 提供新闻等分类语料库,适合做特定领域的词向量学习。

链接: http://www.sogou.com/labs/resource/ca.php

Chinese Text Project: 网站收集了大量的古典文学文本,适用于古文或文学领域的语料库需求。

链接: https://ctext.org

人民日报语料库: 包含了多年的新闻报道文本,但这些通常与版权有关,需要合法使用。

注: 可能需联系版权方获取。

当然,借助一些通用爬虫,垂直爬虫能丰富你的语料库,这是一个值得参考的方案。

https://www.processon.com/view/61e036201efad4259c62408c

https://www.processon.com/view/622c3cd65653bb074b12e896


说说词向量库

对于现成的词向量资源,以下是一些英文和中文的预训练词向量推荐:

一开始接触NLP,就在想有没有分别对各种语言生成的完美词向量库,甚至是人类语言的高维全部词向量库。这样大家在NLP, LLM中的开发和应用就会变得十分带劲。根据需求去裁剪,降维。这块有好的推荐大神,请不吝啬留言分享:👏

Google News Word2Vec: 使用约3亿个英文单词从谷歌新闻数据集上训练而成的word2vec词向量。

链接: https://code.google.com/archive/p/word2vec/

GloVe Twitter和Wikipedia预训练词向量: Stanford NLP组提供了在不同语料上预训练的GloVe词向量。

链接: https://nlp.stanford.edu/projects/glove/

fastText预训练词向量: Facebook AI Research 提供了在大型语料库上预训练的word2vec兼容的fastText模型。

链接: https://fasttext.cc/docs/en/pretrained-vectors.html

中文GloVe和Word2Vec预训练词向量: 可能在一些中文NLP研究站点和Github项目中找到预训练的中文词向量。

伟大的Github:Embedding/Chinese-Word-Vectors

链接:https://github.com/Embedding/Chinese-Word-Vectors

预训练模型

Google原版bertQ:

https://github.com/google-research/bert

中文XLNET预训练模型:

https://github.com/ymcui/Chinese-XLNetQ(只有TensorFlow需转化)orhtps:/huggingface.cohflchinese-xlnet-base/tree/main (pytorch版本需下载)可参照:htps:/www.bilibili.com/read/cv8231417/

中文BERT预训练模型:https://storage.googleapis.com/bert models/20181103/chinese_L-12_H-768 A-12.zip

中文MacBERT预训练模型:https://github.com/ymcui/MacBERT

中文ELECTRA预训练模型:https://github.com/ymcui/Chinese-ELECTRA

中文BERT-wwm预训练模型:https://github.com/ymcui/Chinese-BERT-wwm

中文RoBERTa预训练模型:https://github.com/brightmart/roberta zh



欢迎点赞,收藏,转发,打赏

http://boxes.box.devops-link.online/

https://www.processon.com/u/61e02f7c0e3e7441577e51dc

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容