PageRank: 算法描述与时间空间优化

一. PageRank相关的定义

  1. term spam
    指页面中隐藏大量与网页内容无关的词语, 只是为了在各种排序中排名优先. 因此, 仅仅依赖网页中关键词的统计来为网页进行排序是容易被误导的.
  2. spam farm
    指的是作弊者用很多的作弊网页指向作弊者自己的某个核心网页, 来提高作弊网页的入度. 因此, 只依赖入度来为网页也是排序不靠谱的.
  3. PageRank算法
    是Google创始人拉里·佩奇和谢尔盖·布林于1997年构建早期的搜索系统原型时提出的链接分析算法. 该算法大大改进了当时网页排序的可靠性.
    在接下去的讨论中, PageRank代表了一个算法, 也可以理解成一个函数. 也就是说我们有一个网站A, 通过PageRank我们可以给出一个得分, 即score = PageRank(A) . 同时, PageRank函数给出的得分也常常被称为PageRank值.

二. PageRank算法

1. PageRank算法核心思想

一个网页的重要性和价值, 应该由其他网页对它的评价决定, 而不是由网页自身所含有的信息来决定.
因此, 算法把一个结点指向另外一个结点的有向边视作是投票. 而且, 不是所有的投票都是等价值的, 来自那些得分较高的重要结点的投票价值更高.
PageRank算法是一个需要多轮迭代直到收敛的算法.

2. 基本的算法描述

1)在初始阶段:网页通过链接关系构建起Web图,每个页面设置相同的PageRank值,通过若干轮的计算,会得到每个页面所获得的最终PageRank值。随着每一轮的计算进行,网页当前的PageRank值会不断得到更新。

2)在一轮中更新页面PageRank得分的计算方法:在一轮更新页面PageRank得分的计算中,每个页面将其当前的PageRank值平均分配到本页面包含的出链上,这样每个链接即获得了相应的得分。而每个页面将所有指向本页面的入链所传入的得分求和,即可得到新的PageRank得分。当每个页面都获得了更新后的PageRank值,就完成了一轮PageRank计算。

3. 计算表达式

我们假设有如下一个网页链接关系, 用邻接链表的表示方式是
A: B, C, D
B: A, D
C: A
D: B, C

我们假设每个结点初始的得分值都是一样的, 因此A=B=C=D=0.25, 我们用一个列向量v = (1/4, 1/4, 1/4, 1/4)'来表示所有结点目前的PageRank值.

我们根据邻接链表的链接关系, 可以画出如下的一个转移矩阵M.
其中, 第一列代表A会把它的得分均分给B, C, D三个结点, 因此每个结点拥有0.33的权重. 第一行代表着A结点能够从B, C结点得到的得分权重是0.5和1, 也就是说B会把自己一半的得分投给A, 而C会把自己所有的得分都投给A.

在第一轮迭代之后, 生成的v* = M • v, 其中v代表v = (1/4, 1/4, 1/4, 1/4)'初始的列向量, v*代表第一轮结束以后所有结点的得分列向量, 并且将作为算法下一轮的输入.

4. 改进: 解决流量旋涡(终止点)问题

问题: 如果图中存在着一个没有出度, 但是有入度的结点. 那么由于它不断地吸收别的结点传入的得分, 而不把得分投给别人, 最终会使得整个图结构中, 最后其他结点的得分都趋于0 , 而这个结点趋近于1;
还有一种情况是, 称作"采集器陷阱"的结构, 即有入度的一个子图没有出度. 进来的PageRank值都在这个子图内循环和积累, 导致这个子图如果被看成结点, 那么它会有接近1的重要性.

我们使用一个叫抽税法(taxation) 的技巧来改进PageRank.

v' = βMv + (1-β)e/n

这里, β可以取0.2左右的数值. e代表的是和v相同维度数的单位向量.
内涵: 把1 - β的得分作为抽税, 平均分配给所有结点. 这样能够缓解流量旋涡的问题, 让其他结点能获得一定的得分.

5. 在搜索引擎中的实际使用

PageRank得出的重要性值是网页排序中的一个重要属性, 但是不是唯一的.
首先, 网页至少要包含查询中一个keyword, 一般要能够排在前10的话, 必须包含所有的搜索词项. 同时, 如果关键词出现在网页的标题, head meta标签中, 那么也会提高排名.

三. 计算问题

1. 一般情形下PageRank算法开销分析

1)时间开销: 算法主要时间开销将会是每轮迭代中做Mv的矩阵乘法上, 这是O(V2)的时间开销(V代表图中结点个数, 下同), 再乘上算法需要迭代k轮完成收敛, 因此PageRank的时间开销是O(kV2). 不过, 一般来说, 这个收敛需要次数k会是在10~100之间的数值, 不会特别大.

2)空间开销: 算法最大的空间开销来自于存储整个M矩阵到内存中, 这是O(n2)的空间开销. 因此如果假设有10^6个结点的图, 需要的M矩阵大小是10^12, 按照int型4byte来存储, 这相当于4TB的内存开销, 这是任何单机都无法承受的空间开销.

2. 对空间开销的优化办法

由于M矩阵的空间开销过大, 必须考虑对其的优化存储. 已知大多数情况下, M矩阵十分稀疏, 那么我们可以使用邻接链表或者类似形式, 只存储非零元素的值.

比如, 在Python中, 可以通过构造字典数据类型来实现.

G = {1: [2, 3, 4], 2: [1, 4], 3: [1], 4: [2, 3]}
G[1] = [2, 3, 4]表示结点1和2, 3, 4是有一条有向边.

实际运算中, 为了提高运算速度, 我们会以邻接链表形式存储两个linkIn, linkOut两个图, 方便运算中的快速调用.

linkOut = {1: [2, 3, 4], 2: [1, 4], 3: [1], 4: [2, 3]}
linkIn = {1: [2,3], 2: [1,4], 3: [1,4], 4: [1, 2]}

那么这种情形下, 空间开销就是O(V+E)的, 因为邻接链表存储了所有的点和有向边. 在稀疏图中, O(V+E)往往远小于O(V^2).

3. 对时间开销的优化办法

为了实现从O(V^2)下降到O(V+E)的优化, 我们需要重新定义一般PageRank中的Mv矩阵乘法操作.

我们知道, Mv乘法实际上完成的目的是算出v*列向量, 也就是每个结点新的PageRank值. 按照之前所述, 我们有如下观察:

Observation : 结点的新PageRank值 = Σ (来源结点的PageRank值 • 本结点所分享到的权重)

因此, 做常规矩阵乘法中遍历所有元素的做法是非常浪费的行为. 我们可以直接利用linkIn字典找到指向本结点的所有结点, 并用linkOut字典获取本结点所分享到的权重值.

v* += 1/len(linkOut[fromNode]) * v[fromNode]
说明: v*是本结点新的PageRank值, 1/len(linkOut[fromNode])代表获取本结点所分享到的权重值, v[fromNode]获取来源结点的PageRank值.

由此, 我们的时间开销变成了O(V + E), 在稀疏图中, 这样的时间开销远比O(V^2)小.

备注: 项目代码https://github.com/imcheney/NetworkMining/blob/master/core/MyPageRank.py

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,776评论 6 496
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,527评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,361评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,430评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,511评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,544评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,561评论 3 414
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,315评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,763评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,070评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,235评论 1 343
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,911评论 5 338
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,554评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,173评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,424评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,106评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,103评论 2 352

推荐阅读更多精彩内容