参考:https://www.kuxiao.cn/course/pc-course-learning.html?cid=C59a7d12ae27ce170e7af709d
构建新闻爬取系统
搭建新闻摘要系统
摘要系统原理
两种摘要系统
- 抽取式摘要 (Extractive Summarization)
• 输入:文档
• 输出:由最重要的若干句子按出现顺序展示的文档 - 概述式摘要 (Abstractive Summarization)
• 输入:文档
• 输出:根据最重要内容采用自然语言生成的文档
抽取式摘要原理
怎样定义句子的重要性?
- 重要性(来自社会网络的概念)
– 中心性
– 权威性 - 如何将文档看作一个社会网络?
– 每个句子是一个社会参与者
– 句子之间通过共同单词构成一种关系
中心性
- 重要的参与者是连接到或涉及到大量其他参与者的参与者。
- 在组织中具有大量联系人或与很多其他人通信的人比较重要。
- 中心参与者是牵涉到大量连接中的参与者。
- 常见中心性度量
– 度中心性: 中心参与者是拥有与其他参与者的链接最多的参与者。
– 接近中心性: 中心参与者是到其他参与者距离最短的参与者。
– 中介中心性: 中介性用来度量参与者对于其他结点对的控制能力。如果参与者处在非常多结点的交互路径上, 那么它就是一个重要的参与者。
权威性
与中心性的区分
– 中心性主要考虑发出的联系 ( 链出链接)
– 权威性主要考虑接受的联系 ( 链入链接).一个权威的参与者是被大量链接指向的参与者。
权威度量
– 度权威: 参与者具有越多链入链接, 就越有权威。
– 邻近权威: 如果能够到达参与者i的参与者与i的平均距离越短, i就越有权威。
– 等级权威是包含PageRank在内的大多数网页链接分析算法的基础。等级权威
• 度权威和邻近权威中, 一个重要的因素被忽略了
– 某些拥有投票权的参与者的突出性
• 在现实世界中, 一个被某一重要人物选中的人 i 比另一个被相对不重要的人选中的人更加有权威
– 比如, 一个公司的CEO投给某人的一票肯定比一个普通工人投的一票更重要
• 如果一个参与者的影响范围内充满了其他有权威的参与者, 那么他自己的权威显然也应该很高
–因此一个参与者的权威受其牵涉的参与者的等级所影响
• 根据这个直观认识, 等级权威PR(i)定义为指向i的链接的权威的线性组合:
PageRank
- PageRank(1998)是Web链接分析的统治方法
– 非查询相关的网页分析方式
– 抵抗网页作弊的能力
– Google巨大的商业成功
• PageRank利用Web的庞大链接结构作为单个网页价值或质量的参考。
• PageRank将网页x指向网页y的链接当作是一种投票行为,由网页x投给网页y。
• PageRank考虑网页的投票数和网页的重要性,重要网页投出的选票使得接收这些选票的网页更加重要。
体现社会网络中所提到的等级权威的思想