请问语料库的作用主要是什么,如何构建领域语料库,领域语料库建好以后,如何发挥作用。如把军事语料库作为一项研究内容的话,要研究哪几个方面,主要的关键技术是什么。
一、语料库的作用
要谈语料库的作用,先谈谈语料库是什么。通俗地理解,语料库,顾名思义,就是语言资料库,任何记录语言文字的材料形成的集合都可以广义地称为语料库。所以,语料库的作用问题就变成了语料库的价值问题,即语料库中有什么,隐藏了什么一手价值,这种价值可以经过某种挖掘形成二手价值。先说一手价值,记录语言文字的材料,一般记录了两种信息,一种是语言行文上的信息,如行文特点,语言规范;一种是语言内容上的信息,不同的文本描述了不同的内容,传达出不同的专业知识。第一种需要行文上的信息,可以挖掘出领域特定的语言特点,这种语言特点成果可以供于语言监测(国家语委语言监测中心的工作),也可以用于语言教育(如语言学习,语言习得教育,如hsk考试,又如词典编写,专业词库)。第二种的用处就大的多,内容上的信息蕴涵着大量的领域知识,如现在信息抽取中的实体,实体关系,逻辑事理等,这为领域知识的挖掘(常识库,领域情感挖掘,知识图谱,事件图谱)提供了一手资料。总结的来说。语料库既可以支撑语言本身的挖掘,服务于语言学习与监测,又可以支持领域知识的挖掘。而形成的两类知识又可以直接用于搜索,大概三个功能。
二、如何构建领域语料库
如何构建领域语料库,您可以参考我这篇文章,《语言资源的类别、搜索与搭建策略》, https://blog.csdn.net/lhy2014/article/details/84337064
语料库的构建本质上是一个工程(我们常称为语料库工程),一般分成几个环节:1)确定领域语料库的类型,语料库的最终目标,应该包括的内容。2)根据1得到的结果确定语料库的语料来源,语料的收集方式,语料的格式(图片,PDF,docx,txt,HTML)等。3)根据2得到的语料来源进行语料的采集,并且根据制定好的语料规范对不同来源,不同格式的语料进行融合,规范化,形成初步的生语料(raw corpus) 4)语料库的加工。这个加工不是必选项,这个需要根据具体的目标进行实施,如进行分词,词性标注等加工,也可以进行语料标签化,语料分类等操作,形成一个具有标签信息的熟语料。这一步得到的语料。即可用于语料库的应用了。
三、军事语料库研究内容
军事语料库的研究内容,个人理解,可以从以下几个方面去着手考虑。
1、紧缺性军事语料库构建。结合目前军事项目,军事决策过程中缺乏什么必备的军事文本资源,以此页点。做紧缺性的语料收集工作,以满足军事需求。这个可以做紧缺性的军事语料收集,解决的是类型语料的不足和紧缺性问题。
2,深加工的军事情报语料库。这里所说的深加工,是针对当前军事语料加工程度低,无法直接利用或用的更好(可用信息不足,不够细致)的问题提出的。可以做的是对语料进行知识加工,加工的类型有,对文本进行打标签,对文本进行实体标注,事件标注,情报标注。概念标注等,这个标注的结果一方面可用于检索或其他知识挖掘用,另一方面也可提升语料库使用的信息化检索程度,再者标注出来的信息可以进一步作为评测集为学术界做贡献。
3,军事语料库的体系构建问题
体系问题是语料库另一方面的工作,不同来源源,不同形式的语料库混在一起,很有可能会带来规范不统一的结果,这种结果不利于语料之间的利用和管理。此时,可能需要从语料库的体系出发,针对这些问题,建立一个利于共享和管理的统一规范体系。
4,基于军事语料库的知识挖掘
这个研究内容是对第二个研究内容的延伸,基于加工的语料库,进行知识挖掘,即知识的结构化,建成可用的军事事理图谱,军事知识图谱,并用于作战建模型等后续应用。这也是可以研究的一个方向。
四、军事语料库中的关键技术
这个部分的内容单独说有点虚,关键技术还是要落到研究内容上去。以上述的几个研究内容来看,包括一些领域语料的采集技术,领域的深加工技术(军事语料的标签分类技术,实体标注技术,事件标注技术等),体系构建上,具体又可分为规范体系的构建技术等;知识挖掘上所涉及到的技术可能多一些,具体包括知识抽取技术,事理抽取技术等信息抽取技术手段。
总的来说,围绕军事需求开展军事领域语料库的研究是有意义且有必要的。时间仓促再加上对军事领域的真实情况掌握的不够,有些地方说的可能太简单,也可能不对,请戴老师批评指正!
祝戴老师工作顺利!