写在最前面的话
术语抽取的主流方法包括语言学法、统计法、概率法和混合法 。
(1) 语言学法:语言学法先把文本分词,标注词性 (POS), 然后对比分词结果和词法规则 , 匹配一致的内容计为候选术语。例如 , 阿拉伯术语词法模式、Justeson 词法规则、Daiiie 词法规则、首部修饰定律、五层术语抽取模型、一至六词词法规则等。
(2) 统计法 , 搭建在统计学理论的基石之上 , 如子串修正、互信息 MI、及其改进、TF-IDF、TFRIDF、TFIDFA、以及对称权重 Jaccard值、对比权重、差别权重、词频比率、Weirdness、中英文混合术语抽取、多层术语度、子串归并、LCS 算法、信息熵等。
(3) 概率法的理论基础是概率论和随机过程 ,如隐马尔可夫链 (HMM)、条件随机场(CRF)等。
(4) 混合法 , 即综合运用语言学、统计法、概率法进行术语抽取。该类研究很多 , 如 C-value、NC-value、PC-value、名词计分法、投票算法、词语活跃度、领域相关度、LLR 与 k-means 结合法、C/NC-value 与 LLR 结合法、 技术术语及效果术语抽取三步法、中心词扩展策略、串频最大匹配算法、局部Kemeny 最优等。
一、文献总览
标题 | 作者(来源) | 期刊(级别) | 时间 |
---|---|---|---|
基于互信息与词语共现的领域术语自动抽取方法研究 | 吴海燕(信阳农林学院计算机科学系,河南信阳) | 重庆邮电大学学报(自然科学版) | 2013年10月 |
基于互信息改进算法的新词发现对中文分词系统改进 | 杜丽萍等(西安邮电大学) | 北京大学学报(自然科学 | 2016年1月 |
C-value 值和unithood 指标结合的中文科技术语抽取 | 韩红旗等(中国科学技术信息研究所) | 图书情报工作(科技核心) | 2012年10月 |
C值和互信息相结合的术语抽取 | 梁颖红等(苏州市职业大学) | 计算机应用与软件(科技核心) | 2010年4月 |
基于词频分布变化统计的术语抽取方法 | 周浪等(南京大学) | 计算机科学(中文核心) | 2009年5月 |
Tvalue 术语抽取法 | 刘胜奇( 北京理工大学) | 情报学报 | 2013年3月 |
二、文献思路及涉及方法
文章1 基于互信息与词语共现的领域术语自动抽取方法研究
总体思路:通过计算术语的领域性和完备性来抽取术语
1 领域性计算:
(1)提供一个种子词,查找相同领域内的其他术语(采用经典的Jaccard因子);
(2)文档中查找包含种子词的所有文档,计算出文档中包含的共现词的共现频率和绝对频率,计算 共现词和种子词之间的相关性;
2 完备性计算:
(1)将相关性值最大的n个候选术语作为抽取到的新候选术语,通过 MI计算术语库和新术语之间词的结合性 ,选取值的前n个词作为新抽取出的术语;
需要说明的地方
(1) 相关性计算公式
(2)完备性计算公式
(3)整体抽取过程
(4)整体框架图
(5)实验结果
值得借鉴的地方
(1)对术语相关性的计算
(2)完备性计算较简单,可以考虑换一种方式计算
文章2 基于互信息改进算法的新词发现对中文分词系统改进
1 确定2元待扩展种子词;
2 将2元种子词扩展为2~n元(PMI算法);
3 过滤候选新词(根据自定义词表);
4 人工判定;
该算法重要的是作者提出的PMI算法,公式如下
以4元字串(wi-1,wi,wi+1,wi+2)为例,若满足
则认为字串(wi,wi+1)是一个词或者词的一部分的概率较大,则词串向右扩展
然后将(wi,wi+1)作为一个词,计算其和左侧的wi-1和右侧的wi-2的PMI,若PMI(((wi,wi+1),wi-1)) > PMI(((wi,wi+1),wi+2)) ,则向左拓展,否则向右扩展。
算法整体流程:
文章3 C-value 值和unithood 指标结合的中文科技术语抽取
1 计算unithood指标
2 计算termhood指标
3 候选术语过滤
unithood计算公式
termhood计算公式
文章4 C值和互信息相结合的术语抽取
1 基于C值的术语上下文信息计算
2 基于互信息的字串内部结合强度计算
3 术语CMI值的计算
1 基于C值的术语上下文信息计算,可以通过公式:f(a)是a的tf
2 基于互信息的字串内部结合强度计算,公式如图
3 术语CMI值的计算,公式和方法,如下:
文章总体的算法框架如下:
文章5 基于词频分布变化统计的术语抽取方法
1 总结语法规则,过滤候选词
2 基于术语词频分布变化统计termhood
1 总结的语法规则
(1)术语中不包含叹词、成语、代词、处所词、标点符号、非语素词、语气词和状态词;
(2)术语不得以词性为助词、连词或后接成分的词开头;
(3)术语不得以词性为前接成分、方位词、连词或助词的词结尾;
(4)术语中至少包含下列词性中的一种:名词、动词、量词、后接成分、习用语、简称略语;
2 基于术语词频分布变化统计的termhood计算方法
发现规律
(1)文档的主要内容和该术语关系密切,则该术语被提及的次数很频繁;
(2)文档与该术语属于同一类别内,但并不是直接相关,所以会有所提及,但次数较少;
所以,词频分布的变化能对鉴别一个候选项是否为专业术语做出重要的指示。
故总结出的D-Value公式:
文章6 Tvalue 术语抽取法
总体思路:Tvalue 由五个属性(首尾词性度、词长度、独立度、停用度和重要度)组合而成 可衡量一个词串能构成术语的程度 。
1 首尾词性度
2 词长度
3 独立度
4 停用度
5 重要度
通过对于术语的五个维度的计算,衡量术语的可能性。