引用:北京邮电大学硕士论文《基于知识图谱的领域知识库管理系统的设计与实现》 化立志
传统处理文本类数据构造特征向量的方法有TF-IDF词频统计方法,基于LDA主题特征的方法等等,但这些方法基本都是在词频的基础上构造特征向量,并没有考虑词语之间的语义信息。因此本文引入WAF词激活力的概念。其基本思想是:如果两个词总是同时出现的,那么认为两个词之间存在着某种关联。
WAF理论是基于词对的共现词频和共现距离的,根据WAF的计算公式,对任意的两个词i和j,可以计算出i对j的激活程度,它表示词语i对词语j的激活力大小,这个激活程度是有方向的,将i称为词对中的激活源,j称为词对中的激活目标,词语i到词语j的激活力强度可由数学公式(2-1)表示。
其中,fi和fj分别表示词语i和词语j出现的频率,fij表示词语i对词语j的共现频率,表示两词共同出现时的平均距离,可以看出词语i对词语j的激活力大小与两词的共现频率成正比,与两词的共现距离成反比,同时把每一词单独出现的频率作为惩罚项,避免一些通用的词语的激活力过大。规定如果两个词的共现位置是相邻的,那么为0,并把WAF值置为1。根据如上公式,可以计算出全部词对所构成的WAF矩阵。
其中n是文本中提取出的命名实体的个数,该矩阵其实表示的也是一张有向图,图中每个节点代表一个命名实体,边的权重代表一个实体到另一个实体的激活程度。根据词激活力矩阵,可以进一步计算出命名实体的词亲和力矩阵,计算公式如下
从公式可以看出,词亲和力矩阵考虑了词激活力矩阵中两个词入度和出度的重合率,即如果两个词总是拥有同一批词的入度和同一批词的出度,则认为两个词的亲和度较大。后续本文会利用词激活力矩阵和词亲和力矩阵提出两种构造命名实体对特征向量的方法