术语抽取论文文献综述(规则+统计类)

写在最前面的话

术语抽取的主流方法包括语言学法、统计法、概率法和混合法 。

(1) 语言学法:语言学法先把文本分词,标注词性 (POS), 然后对比分词结果和词法规则 , 匹配一致的内容计为候选术语。例如 , 阿拉伯术语词法模式、Justeson 词法规则、Daiiie 词法规则、首部修饰定律、五层术语抽取模型、一至六词词法规则等。

(2) 统计法 , 搭建在统计学理论的基石之上 , 如子串修正、互信息 MI、及其改进、TF-IDF、TFRIDF、TFIDFA、以及对称权重 Jaccard值、对比权重、差别权重、词频比率、Weirdness、中英文混合术语抽取、多层术语度、子串归并、LCS 算法、信息熵等。

(3) 概率法的理论基础是概率论和随机过程 ,如隐马尔可夫链 (HMM)、条件随机场(CRF)等。

(4) 混合法 , 即综合运用语言学、统计法、概率法进行术语抽取。该类研究很多 , 如 C-value、NC-value、PC-value、名词计分法、投票算法、词语活跃度、领域相关度、LLR 与 k-means 结合法、C/NC-value 与 LLR 结合法、 技术术语及效果术语抽取三步法、中心词扩展策略、串频最大匹配算法、局部Kemeny 最优等。

一、文献总览

标题 作者(来源) 期刊(级别) 时间
基于互信息与词语共现的领域术语自动抽取方法研究 吴海燕(信阳农林学院计算机科学系,河南信阳) 重庆邮电大学学报(自然科学版) 2013年10月
基于互信息改进算法的新词发现对中文分词系统改进 杜丽萍等(西安邮电大学) 北京大学学报(自然科学 2016年1月
C-value 值和unithood 指标结合的中文科技术语抽取 韩红旗等(中国科学技术信息研究所) 图书情报工作(科技核心) 2012年10月
C值和互信息相结合的术语抽取 梁颖红等(苏州市职业大学) 计算机应用与软件(科技核心) 2010年4月
基于词频分布变化统计的术语抽取方法 周浪等(南京大学) 计算机科学(中文核心) 2009年5月
Tvalue 术语抽取法 刘胜奇( 北京理工大学) 情报学报 2013年3月

二、文献思路及涉及方法

文章1 基于互信息与词语共现的领域术语自动抽取方法研究

总体思路:通过计算术语的领域性和完备性来抽取术语

1 领域性计算:
(1)提供一个种子词,查找相同领域内的其他术语(采用经典的Jaccard因子);
(2)文档中查找包含种子词的所有文档,计算出文档中包含的共现词的共现频率和绝对频率,计算 共现词和种子词之间的相关性
2 完备性计算:
(1)将相关性值最大的n个候选术语作为抽取到的新候选术语,通过 MI计算术语库和新术语之间词的结合性 ,选取值的前n个词作为新抽取出的术语;

需要说明的地方

(1) 相关性计算公式


image.png

(2)完备性计算公式


image.png

(3)整体抽取过程
image.png

(4)整体框架图


image.png

(5)实验结果
image.png

值得借鉴的地方

(1)对术语相关性的计算
(2)完备性计算较简单,可以考虑换一种方式计算


文章2 基于互信息改进算法的新词发现对中文分词系统改进

1 确定2元待扩展种子词;
2 将2元种子词扩展为2~n元(PMI算法);
3 过滤候选新词(根据自定义词表);
4 人工判定;

该算法重要的是作者提出的PMI算法,公式如下


image.png

以4元字串(wi-1,wi,wi+1,wi+2)为例,若满足


image.png

则认为字串(wi,wi+1)是一个词或者词的一部分的概率较大,则词串向右扩展
然后将(wi,wi+1)作为一个词,计算其和左侧的wi-1和右侧的wi-2的PMI,若PMI(((wi,wi+1),wi-1)) > PMI(((wi,wi+1),wi+2)) ,则向左拓展,否则向右扩展。

算法整体流程:


image.png

文章3 C-value 值和unithood 指标结合的中文科技术语抽取

1 计算unithood指标
2 计算termhood指标
3 候选术语过滤

unithood计算公式


image.png

termhood计算公式


image.png

文章4 C值和互信息相结合的术语抽取

1 基于C值的术语上下文信息计算
2 基于互信息的字串内部结合强度计算
3 术语CMI值的计算

1 基于C值的术语上下文信息计算,可以通过公式:f(a)是a的tf

image.png

2 基于互信息的字串内部结合强度计算,公式如图

image.png

3 术语CMI值的计算,公式和方法,如下:


image.png

文章总体的算法框架如下:

image.png

文章5 基于词频分布变化统计的术语抽取方法

1 总结语法规则,过滤候选词
2 基于术语词频分布变化统计termhood

1 总结的语法规则
(1)术语中不包含叹词、成语、代词、处所词、标点符号、非语素词、语气词和状态词;
(2)术语不得以词性为助词、连词或后接成分的词开头;
(3)术语不得以词性为前接成分、方位词、连词或助词的词结尾;
(4)术语中至少包含下列词性中的一种:名词、动词、量词、后接成分、习用语、简称略语;

2 基于术语词频分布变化统计的termhood计算方法

image.png

发现规律
(1)文档的主要内容和该术语关系密切,则该术语被提及的次数很频繁;
(2)文档与该术语属于同一类别内,但并不是直接相关,所以会有所提及,但次数较少;
所以,词频分布的变化能对鉴别一个候选项是否为专业术语做出重要的指示。

故总结出的D-Value公式:


image.png
image.png

文章6 Tvalue 术语抽取法

总体思路:Tvalue 由五个属性(首尾词性度、词长度、独立度、停用度和重要度)组合而成 可衡量一个词串能构成术语的程度 。

1 首尾词性度
2 词长度
3 独立度
4 停用度
5 重要度

通过对于术语的五个维度的计算,衡量术语的可能性。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 命名实体识别 命名实体的提出源自信息抽取问题,即从报章等非结构化文本中抽取关于公司活动和国防相关活动的结构化信息,...
    我偏笑_NSNirvana阅读 10,409评论 1 35
  • 很早之前看了几篇博文,只留下模糊印象 。这次是在学习人工智能的基础知识后再看,其中研究自然语言的方法从基于规则转变...
    轻舟阅读 5,951评论 0 9
  • 从4岁离开四川,随父母来到湖北,懵懂地长大。 记忆里最深刻的就是爸爸一脸怒气地训斥妈妈,妈妈一副委曲求全的样子。爸...
    画屏闲展阅读 993评论 5 4
  • 什么是Memcached Memcached是国外社区网站LiveJournal的开发团队开发的高性能分布式内存缓...
    小白frankie阅读 1,858评论 0 0
  • 今天我想谈谈关于人生负债的理解。 记得小时候就经常听大人们说:人这一辈子就是来还债的,儿女都是来讨债的,不太明白,...
    王俊丽阅读 278评论 0 1