TextRank

textRank是由PageRank启发来的，PageRank主要用于对在线搜索结果中的网页进行排序。
抽取式摘要主要分为：

抽取摘要分类.png

PageRank

PageRank
Google把从A页面到B页面的链接解释为A页面给B页面投票，Google根据投票来源（甚至来源的来源，即链接到A页面的页面）和投票目标的等级来决定新的等级。简单的说，一个高等级的页面可以使其他低等级页面的等级提升。
具体说来就是，PageRank有两个基本思想，也可以说是假设，即数量假设：一个网页被越多的其他页面链接，就越重）；质量假设：一个网页越是被高质量的网页链接，就越重要。

pagerank公式.png

其中d是阻尼系数，通常设置为0.85，In(Vi)是指向网页i的链接， Out(Vj)是指出页面i看的网页集合。

TextRank

两种算法的相似之处：
1.用句子代替网页
2.任意两个句子的相似性等价于网页转换概率
3.相似性得分存储在一个方形矩阵中，类似于PageRank的矩阵M

TextRank 算法是一种用于文本的基于图的排序算法。
其基本思想通过把文本分割成若干组成单元(单词、句子)并建立图模型, 利用投票机制对文本中的重要成分进行排序, 仅利用单篇文档本身的信息即可实现关键词提取、文摘。
和 LDA、HMM 等模型不同, TextRank不需要事先对多篇文档进行学习训练, 因其简洁有效而得到广泛应用。

TextRank公式.png

TextRank 一般模型可以表示为一个有向有权图 G =(V, E), 由点集合 V和边集合 E 组成, E 是V ×V的子集。图中任两点 Vi , Vj 之间边的权重为 w_ji , 对于一个给定的点 V_i, In(V_i) 为指向该点的点集合 , Out(V_i) 为点 V_i指向的点集合。点 V_i 的得分定义如下:

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

TextRank

PageRank

TextRank

友情链接更多精彩内容