TextRank——关键词提取

TextRank 算法可以脱离语料库的背景,仅对单篇文档进行分析就可以提取该文档的关键词。

PageRank 算法

TextRank 算法基于 PageRank 算法的。PageRank 算法是一种网页排名算法,其基本思想有两条:

  • 链接数量:一个网页被越多的其他网页链接,说明这个网页越重要。
  • 链接质量:一个网页被一个越高权值的网页链接,也能表明这个网页越重要。
image.png

d 表示阻尼系数,为了解决没有入链网页的得分。在 0.85 的阻尼系数下,大约 100 多次迭代 PR 值就能收敛到一个稳定的值,而当阻尼系数接近 1 时,需要的迭代次数会陡然增加很多,且排序不稳定。

链接网页的初始分数如何确定:算法开始时会将所有网页的得分初始化为 1,然后通过多次迭代来对每个网页的分数进行收敛。收敛时的得分就是网页最终得分。若不能收敛,也可以通过设定最大迭代次数来对计算进行控制,计算停止时的分数就是网页的得分。

TextRank 算法

image.png

参考链接

https://www.zybuluo.com/evilking/note/902585

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。