TextRank

textRank是由PageRank启发来的,PageRank主要用于对在线搜索结果中的网页进行排序。
抽取式摘要主要分为:

抽取摘要分类.png

PageRank

PageRank
Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。
具体说来就是,PageRank有两个基本思想,也可以说是假设,即数量假设:一个网页被越多的其他页面链接,就越重);质量假设:一个网页越是被高质量的网页链接,就越重要。

pagerank公式.png

其中d是阻尼系数,通常设置为0.85,In(Vi)是指向网页i的链接, Out(Vj)是指出页面i看的网页集合。


TextRank

两种算法的相似之处:
1.用句子代替网页
2.任意两个句子的相似性等价于网页转换概率
3.相似性得分存储在一个方形矩阵中,类似于PageRank的矩阵M

TextRank 算法是一种用于文本的基于图的排序算法。
其基本思想通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。
和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。

TextRank公式.png

TextRank 一般模型可以表示为一个有向有权图 G =(V, E), 由点集合 V和边集合 E 组成, E 是V ×V的子集。图中任两点 Vi , Vj 之间边的权重为 wji , 对于一个给定的点 Vi, In(Vi) 为 指 向 该 点 的 点 集 合 , Out(Vi) 为点 Vi 指向的点集合。点 Vi 的得分定义如下:

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容