中文自然语言处理开放平台
由中国科学院计算技术研究所·数字化室&软件室创立一个研究自然语言处理的一个平台,里面包含有大量的训练测试语料。
语料库:http://www.nlp.org.cn/docs/doclist.php?cat_id=9&type=15
文本语料库:http://www.nlp.org.cn/docs/doclist.php?cat_id=16&type=15
sogou文本分类语料库
文本分类语料库来源于Sohu新闻网站保存的大量经过编辑手工整理与分类的新闻语料与对应的分类信息。其分类体系包括几十个分类节点,网页规模约为十万篇文档。
地址:http://www.sogou.com/labs/dl/c.html
中文Web信息检索论坛
中文Web信息检索论坛(Chinese Web Information Retrieval Forum,简称CWIRF)是由北京大学网络实验室从2004年6月起建立并维护的以大规模中文Web信息为测试集的信息检索研究论坛。
CWT(Chinese Web Test collection, 中文Web测试集):
ComPaper10th
Computer Paper collection with more than 10 thousand papers
CWT70th
Chinese Web Test collection with 70 thousand pages
CWT200g
Chinese Web Test collection with 200 GB web pages.
中文网页分类训练集
CCT2006
2006年3月中文网页分类训练集CCT2006, 编号YQ-CCT-2006-03. 根据常见的新闻类别而设定的分类体系,从新闻网站上抓取得到对应 类别的新闻网页作为训练集页面。它包括960个训练网页和240个测试网页, 分布在8个类别中。下载
CCT2002-v1.1
2002年中文网页分类训练集CCT2002-v1.1, 编号YQ-WEBBENCH-V1.1,说明。 是在CCT2002-v1.0 的基础上对类别进行了部分修正. 是2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生, 人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。 它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。下载
-----------------------
下面提供一些网上能下载到的中文的好语料,供研究人员学习使用。
(1).中科院自动化所的中英文新闻语料库http://www.datatang.com/data/13484
中文新闻分类语料库从凤凰、新浪、网易、腾讯等版面搜集。英语新闻分类语料库为Reuters-21578的ModApte版本。
(2).搜狗的中文新闻语料库http://www.sogou.com/labs/dl/c.html
包括搜狐的大量新闻语料与对应的分类信息。有不同大小的版本可以下载。
(3).李荣陆老师的中文语料库http://www.datatang.com/data/11968
压缩后有240M大小
(4).谭松波老师的中文文本分类语料http://www.datatang.com/data/11970
不仅包含大的分类,例如经济、运动等等,每个大类下面还包含具体的小类,例如运动包含篮球、足球等等。能够作为层次分类的语料库,非常实用。这个网址免积分(谭松波老师的主页):http://www.searchforum.org.cn/tansongbo/corpus1.php
(5).网易分类文本数据http://www.datatang.com/data/11965
包含运动、汽车等六大类的4000条文本数据。
(6).中文文本分类语料http://www.datatang.com/data/11963
包含Arts、Literature等类别的语料文本。
(7).更全的搜狗文本分类语料http://www.sogou.com/labs/dl/c.html
搜狗实验室发布的文本分类语料,有不同大小的数据版本供免费下载
(8).2002年中文网页分类训练集http://www.datatang.com/data/15021
2002年秋天北京大学网络与分布式实验室天网小组通过动员不同专业的几十个学生,人工选取形成了一个全新的基于层次模型的大规模中文网页样本集。它包括11678个训练网页实例和3630个测试网页实例,分布在11个大类别中。
————————————————————————————————————————————————
将预料库进行分词并去掉停用词,可以使用的分词工具有:
StandardAnalyzer(中英文)、ChineseAnalyzer(中文)、CJKAnalyzer(中英文)、IKAnalyzer(中英文,兼容韩文,日文)、paoding(中文)、MMAnalyzer(中英文)、MMSeg4j(中英文)、imdict(中英文)、NLTK(中英文)、Jieba(中英文),这几种分词工具的区别,可以参加:http://blog.csdn.net/wauwa/article/details/7865526。
(一) 国家语委
1国家语委现代汉语语料库http://www.cncorpus.org/
现代汉语通用平衡语料库现在重新开放网络查询了。重开后的在线检索速度更快,功能更强,同时提供检索结果下载。现代汉语语料库在线提供免费检索的语料约2000万字,为分词和词性标注语料。
2古代汉语语料库http://www.cncorpus.org/login.aspx
网站现在还增加了一亿字的古代汉语生语料,研究古代汉语的也可以去查询和下载。同时,还提供了分词、词性标注软件、词频统计、字频统计软件,基于国家语委语料库的字频词频统计结果和发布的词表等,以供学习研究语言文字的老师同学使用。
(二) 北京大学计算语言学研究所
1《人民日报》标注语料库http://www.icl.pku.edu.cn/icl_res/
《人民日报》标注语料库中一半的语料(1998年上半年)共1300万字已经通过《人民日报》新闻信息中心公开提供许可使用权。其中一个月的语料(1998年1月)近200万字在互联网上公布,供自由下载。
(三) 北京语言大学
汉语国际教育技术研发中心:HSK动态作文语料库http://202.112.195.192:8060/hsk/login.asp
语言研究所:北京口语语料查询系统(B J K Y)http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp
(四)台湾中央研究院
中研院语料库WWW版所有功能均开放使用,但为防主机资源耗用过剧及顾及数据传输之实际限制,暂以检索结果为限制的条件:院内检索限两万行数据,院外检索限两千行数据。
1现代汉语平衡语料库http://www.sinica.edu.tw/SinicaCorpus/
专 门针对语言分析而设计的,每个文句都依词断开,并标示词类。语料的搜集也尽量做到现代汉语分配在不同的主题和语式上,是现代汉语无穷多的语句中一个代表性 的样本。现有语料库主要针对语言分析而设计,由中央研究院信息所、语言所词库小组完成,内含有简介、使用说明,现行的语料库是4.0的版本。
2古汉语语料库http://www.sinica.edu.tw/ftms-bin/ftmsw
古汉语语料库包含以下五个语料库: 上古汉语、中古汉语(含大藏经)、近代汉语、其他、出土文献。部分数据取自史语所汉籍全文数据库,故两者间略有重迭。此语料库之出土文献语料库,全部取自史语所汉简小组所制作的数据库。
3近代汉语标记语料库http://www.sinica.edu.tw/Early_Mandarin/
4树图数据库http://treebank.sinica.edu.tw/
「中文句結構樹資料庫」(Sinica Treebank Version 3.0) 包含了6個檔案,61,087個中文樹圖,361,834個詞,是中央研究院詞庫小組從中央研究院平衡語料庫 (Sinica Corpus) 中抽取句子,經由電腦剖析成結構樹,並加以人工修正、檢驗後所得的成果。在中文句結構樹中,我們標示了中文句語意和語法的訊息。此一「中文句結構樹資料庫」目前開放網上檢索及資料移轉,以供學者專家在中文句法、語意關係研究參考之用。另有1000個句結構樹開放下載。
5中英双语知识本体词网http://bow.sinica.edu.tw/
结合词网,知识本体,与领域标记的词汇知识库。
6搜文解字http://words.sinica.edu.tw/
包含「搜词寻字」、「文学之美」、「游戏解惑」、「古文字的世界」四个单元,可由部件、部首、字、音、词互查,并可查询在四书、老、庄、唐诗中的出处,及直接连结到出处,阅读原文。
7文国寻宝记http://www.sinica.edu.tw/wen/
在搜文解字的基础之上,以华语文学习者为对象,进一步将字、词、音的检索功能与国编、华康、南一等三种版本的国小国语课本结合,与唐诗三百首、宋词三百首、红楼梦、水浒传等文学典籍结合,提供网络上国语文学习的素材。
8唐诗三百首http://cls.admin.yzu.edu.tw/300/
以 国中、小学学生为主要使用对象,提供吟唱、绘画、书法等多媒体数据,文字数据报含作者生平、读音标注、翻译、批注、评注、典故出处等资料;检索点包含作 者、诗题、诗句、综合资料、体裁分类等;检索结果可以列出全文,并选择标示相关之文字及多媒体数据。并提供了一套可以自动检查格律、韵脚、批改的「依韵入 诗格律自动检测索引教学系统」,协助孩子们依韵作诗,协助教师批改习作。
9汉籍电子文献http://www.sinica.edu.tw/~tdbproj/handy1/
包含整部25史 整部阮刻13经、超过2000万字的台湾史料、1000万字的大正藏以及其他典籍。
10红楼梦网络教学研究数据中心http://cls.hs.yzu.edu.tw/HLM/home.htm
元智大学中国文学网络系统研究室所开发的「网络展书读—中国文学网络系统」,为研究中心负责人罗凤珠老师主持,红楼梦是其中一个子系统,其他还包括善本书、诗经、唐宋诗词、作诗填词等子系统。此网站为国内Internet最大中国文学研究数据库,提供用户最完整的中国文学研究数据。
(五)中国传媒大学
1中国传媒大学文本语料库检索系统
http://ling.cuc.edu.cn/RawPub/
2在线分词标注系统
http://ling.cuc.edu.cn/cucseg/
3新词语研究资源库
http://ling.cuc.edu.cn/newword/web/index.asp
4音视频语料检索系统
http://ling.cuc.edu.cn/mmcpub(目前系统正在升级改造中)
(六)哈尔滨工业大学
1哈工大信息检索研究室对外共享语料库资源http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
该语料库为汉英双语语料库,10万对齐双语句对,文本文件格式,同义词词林扩展版,77,343条词语,秉承《同义词词林》的编撰风格,同时采用五级编码体系,多文档自动文摘语料库,40个主题,文本文件格式,同一主题下是同一事件的不同报道,汉语依存树库,不带关系5万句,带关系1万句,LTML化,分词、词性、句法部分人工标注,可以图形化查看,问答系统问题集,6264句,已标注问题类型,LTML化,分词、词性、句法、词义、浅层语义等程序处理得到,单文档自动文摘语料库,211篇,分不同体裁,LTML化,文摘句标注,分词、词性、句法、词义、浅层语义、文本分类、指代消解等程序处理得到。
(七)清华大学
汉语均衡语料库TH-ACorpus:http://www.lits.tsinghua.edu.cn/ainlp/source.htm(似乎在改版,一直上不去)
(八)香港教育学院
语言资讯科学中心及其语料库实验室http://www.livac.org/index.php?lang=sc
自1995年开始,以「共时」方式处理了超常的大量汉语语料,通过精密的技术,累积众多精确的统计数据,建立了LIVAC (Linguistic Variation in Chinese Speech Communities)共时语料库。 本语料库最大特点是采用「共时性」视窗模式,严谨地定时分别收集来自多地的定量同类语料,可供各种客观的比较研究,方便有关的信息科技发展与应用。此外,语料库又兼顾了「历时性」,方便各方人士客观地观察与研究视窗内的有代表性的语言发展全面动态。
(九)中国科学院计算技术研究所
跨语言语料库http://mtgroup.ict.ac.cn/new/resource/index.php(目前不可用,不知道是否在升级)
目前的双语句对数据库中有约180,000对已对齐的中英文句子。 本数据库支持简单的中英文查询服务。 查询结果包括句对编号、中文句子、英文句子、句对来源。
(十)中文语言资源联盟
中文语言资源联盟http://www.chineseldc.org/
(Chinese Linguistic Data Consortium,简称ChineseLDC)的建立。ChineseLDC是吸收国内高等院校,科研机构和公司参加的开放式语言资源联盟。其目的是建成能代表当今中文信息处理水平的,通用的中文语言信息知识库。ChineseLDC 将建设和收集中文信息处理所需要的各种语言资源,包括词典,语料库,数据,工具等。在建立和收集语言资源的基础上,分发资源,促成统一的标准和规范,推荐给用户,并且针对中文信息处理领域的关键技术建立评测机制,为中文信息处理的基础研究和应用开发提供支持。(之所以排名这么后,是因为是国家出钱的项目,却没有什么免费资源)
【网站】
语料库在线 http://www.cncorpus.org/
现代汉语语料库 http://ccl.pku.edu.cn/corpus.asp?item=1
古代汉语语料库 http://ccl.pku.edu.cn/corpus.asp?item=2
汉英双语语料库 http://ccl.pku.edu.cn/corpus.asp?item=3
HSK动态作文语料库 http://202.112.195.192:8060/hsk/login.asp
北京口语语料查询系统 http://www.blcu.edu.cn/yys/6_beijing/6_beijing_chaxun.asp
现代汉语平衡语料库 http://rocling.iis.sinica.edu.tw/new/20corpus.htm
LIVAC共時語料庫 http://www.livac.org/index.php
兰开斯特汉语语料库 http://ling.cass.cn/dangdai/LCMC/LCMC.htm
洛杉矶加州大学汉语语料库 http://www.lancs.ac.uk/fass/projects/corpus/UCLA/
中文新闻分类语料库 http://www.nlpir.org/?action-viewnews-itemid-145
NLPIR 500万条twitter内容语料库 http://www.nlpir.org/?action-viewnews-itemid-263
NLPIR微博博主语料库100万条 http://www.nlpir.org/?action-viewnews-itemid-232
現代漢語語料庫詞頻統計 http://elearning.ling.sinica.edu.tw/CWordfreq.html
欢迎关注新浪微博【对外汉语北京】
中文句結構樹資料庫 http://turing.iis.sinica.edu.tw/treesearch/
搜狗文本分类语料库 http://www.sogou.com/labs/dl/c.html
哈工大信息检索研究室对外共享语料库 http://ir.hit.edu.cn/demo/ltp/Sharing_Plan.htm
传媒大学文本语料库 http://ling.cuc.edu.cn/RawPub/
词语研究资源库 对外汉语北京 http://ling.cuc.edu.cn/newword/web/index.asp
BFSU CQPweb多语言在线语料库检索平台 http://www.iresearch.ac.cn/paper/detail.php?ItemID=6358
英汉双语平行语料库 http://www.luweixmu.com/ec-corpus/
babel 汉英平行语料库 http://icl.pku.edu.cn/icl_groups/parallel/default.htm
中国法律法规汉英平行语料库(大陆) http://corpus.zscas.edu.cn/lawcorpus1/index.asp
国家语言资源监测与研究中心 http://www.clr.org.cn/
British National Corpus http://www.natcorp.ox.ac.uk/
以下资源来自中国自然语言开源组织:http://www.nlpcn.org/
Google《纽约时报》标注数据集
Google公布了一个《纽约时报》标注数据集: http://t.cn/RPsjAyl 训练集包括100,834文件,19,261,118标注实体。 测试集合包括9,706文件,187,080标注实体。Google Code项目链接: http://t.cn/RPsjAyl
360万中文词库包含,词性,词频
来源:互联网。共有词条3669276个。统计了每个词条的词频以及词性信息。尽请down。。 下载地址:http://pan.baidu.com/s/1gdBtsTP 提取码:7s4j
1-billion-word-language-modeling-benchmark 1.67G
1-billion-word-language-modeling-benchmark-r13output.tar 语言模型词语搭配语料 链接: http://pan.baidu.com/s/1o6jZOtc 密码: x4sb
某购物网站6w多的商品数据。链接: http://pan.baidu.com/s/1o6DgcNS 密码: vi4l 包括商品名称价钱。以及图片链接地址分类id
内容自网络,如有侵权,请联系。