textRank是由PageRank启发来的,PageRank主要用于对在线搜索结果中的网页进行排序。
抽取式摘要主要分为:
PageRank
PageRank
Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
具体说来就是,PageRank有两个基本思想,也可以说是假设,即数量假设:一个网页被越多的其他页面链接,就越重);质量假设:一个网页越是被高质量的网页链接,就越重要。
其中d是阻尼系数,通常设置为0.85,In(Vi)是指向网页i的链接, Out(Vj)是指出页面i看的网页集合。
TextRank
两种算法的相似之处:
1.用句子代替网页
2.任意两个句子的相似性等价于网页转换概率
3.相似性得分存储在一个方形矩阵中,类似于PageRank的矩阵M
TextRank 算法是一种用于文本的基于图的排序算法。
其基本思想通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。
和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。
TextRank 一般模型可以表示为一个有向有权图 G =(V, E), 由点集合 V和边集合 E 组成, E 是V ×V的子集。图中任两点 Vi , Vj 之间边的权重为 wji , 对于一个给定的点 Vi, In(Vi) 为 指 向 该 点 的 点 集 合 , Out(Vi) 为点 Vi 指向的点集合。点 Vi 的得分定义如下: