数据挖掘十大经典算法之Pagerank

一、 PageRank介绍

PageRank,网页排名,又称网页级别、Google左侧排名或佩奇排名,是一种由搜索引擎根据网页之间相互的超链接计算的技术,而作为网页排名的要素之一,以Google公司创办人拉里·佩奇(Larry Page)之姓来命名。Google用它来体现网页的相关性和重要性,是Google用来衡量一个站点的好坏的唯一标准,在搜索引擎优化操作中是经常被用来评估网页优化的成效因素之一。

对于某个互联网网页A来说,该网页PageRank的计算基于下面两个基本如果:

     数量如果:在Web图模型中,如果一个页面节点接收到的其它网页指向的入链数量越多,那么这个页面越重要。

     质量如果:指向页面A的入链质量不同,质量高的页面会通过链接向其它页面传递很多其它的权重。所以越是质量高的页面指向页面A,则页面A越重要。

利用以上两个如果,PageRank算法刚開始赋予每一个网页同样的重要性得分,通过迭代递归计算来更新每一个页面节点的PageRank得分,直到得分稳定为止。 PageRank计算得出的结果是网页的重要性评价,这和用户输入的查询是没有不论什么关系的,即算法是主题无关的

总结:PageRank通过网络浩瀚的超链接关系来确定一个页面的等级。Google把从A页面到B页面的链接解释为A页面给B页面投票,Google根据投票来源(甚至来源的来源,即链接到A页面的页面)和投票目标的等级来决定新的等级。简单的说,一个高等级的页面可以使其他低等级页面的等级提升。

二、PageRank算法原理

PageRank的计算充分利用了两个如果:数量如果和质量如果。过程例如以下:

 1)在初始阶段:网页通过链接关系构建起Web图,每一个页面设置同样的PageRank值,通过若干轮的计算,会得到每一个页面所获得的终于PageRank值。随着每一轮的计算进行,网页当前的PageRank值会不断得到更新。

 2)在一轮中更新页面PageRank得分的计算方法:在一轮更新页面PageRank得分的计算中,每一个页面将其当前的PageRank值平均分配到本页面包括的出链上,这样每一个链接即获得了对应的权值。而每一个页面将全部指向本页面的入链所传入的权值求和,就可以得到新的PageRank得分。当每一个页面都获得了更新后的PageRank值,就完毕了一轮PageRank计算。 

三、PageRank算法的基本思想

假设网页T存在一个指向网页A的连接,则表明T的全部者觉得A比較重要,从而把T的一部分重要性得分赋予A。这个重要性得分值为:PR(T)/L(T)。

     当中PR(T)为T的PageRank值,L(T)为T的出链数。

        则A的PageRank值为一系列类似于T的页面重要性得分值的累加。

 即一个页面的得票数由全部链向它的页面的重要性来决定,到一个页面的超链接相当于对该页投一票。一个页面的PageRank是由全部链向它的页面(链入页面)的重要性经过递归算法得到的。一个有较多链入的页面会有较高的等级,相反假设一个页面没有不论什么链入页面,那么它没有等级。

四、PageRank算法的优缺点

优点:是一个与查询无关的静态算法,所有网页的PageRank值通过离线计算获得;有效减少在线查询时的计算量,极大降低了查询响应时间。 

不足:人们的查询具有主题特征,PageRank忽略了主题相关性,导致结果的相关性和主题性降低;另外,PageRank有很严重的对新网页的歧视。

五、针对PageRank忽略主题的改进——Topic-Sensitive PageRank

基本思想:针对PageRank对主题的忽略而提出。核心思想:通过离线计算出一个  PageRank向量集合,该集合中的每一个向量与某一主题相关,即计算某个页面关于不同主题的得分。

主要分为两个阶段:主题相关的PageRank向量集合的计算和在线查询时主题的确定。 

优点:根据用户的查询请求和相关上下文判断用户查询相关的主题(用户的兴趣)返回查询结果准确性高。 

不足:没有利用主题的相关性来提高链接得分的准确性。 

六、影响google PageRank的因素有哪些呢? 

1 与pr高的网站做链接: 

2 内容质量高的网站链接 

3加入搜索引擎分类目录 

4 加入免费开源目录 

5 你的链接出现在流量大、知名度高、频繁更新的重要网站上 

6 google对DPF格式的文件比较看重。 

7 安装Google工具条 

8 域名和tilte标题出现关键词与meta标签等 

9 反向连接数量和反向连接的等级 

10 Google抓取您网站的页面数量 

11导出链接数量

参考:

https://blog.csdn.net/u011067360/article/details/24368085

https://www.cnblogs.com/mfrbuaa/p/3909597.html

算法实现:https://www.cnblogs.com/jpcflyer/p/11180263.html

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。