- 两个模型
- 随机游走模型:网页节点通过链接进行跳转,对应跳转的概率
- 子集传播模型:网页划分子集,给予特殊子集内网页初始权值,然后根据特殊子集内网页和其他网页的链接关系,将权值传递到其他网页。
-
链接分析算法的关系图
-
PageRank
迭代计算公式:
网页通过链接关系构建起Web图,在初始阶段,每个页面设置相同的PageRank值,通过若干轮的计算,获得每个页面的最终PageRank值。
终止点、采集器陷阱:抽税方法
快速计算:MapReduce -
HITS
一个网页的导航度正比于其所有链出网页的权威度之和;一个网页的权威度正比于其所有链入网页导航度之和。
定义导航页和权威页,在扩展网页集合内计算每个网页的导航度和权威度。
SALSA算法
得到扩展网络集合,将网页集合转换为一个二分图,一个子集合是Hub子集,另一个是Authority集合;然后采用链接关系传播权值,类似PageRank。主题敏感PageRank
对网页引入主题相关PageRank分值;查询相关Hilltop算法
非从属组织页面;专家页面
过程:专家页面子集合->查询->相关专家页面->目标页面子集合->搜索结果