智优营家小编首先说一下为什么这两个算法要放在一起,因为无论是SALSA算法还是Hilltop算法,都算是综合PageRank算法和HITS算法的特点,算是升级版的算法。
SALSA算法
首先看下SALSA算法的基本思想。
可以将SALSA算法的运行划分为两个大的阶段:首先是确定计算对象集合的阶段,这一阶段与HITS算法基本相同;第二个阶段是链接关系传播过程,在这一阶段则采纳了“随机游走模型”。
简单说一下这个算法的基本运行。
和HITS算法一样,在用户搜索的时候会先进行一个网页的集合,在这个集合内会进行一定的链接分析方法获得页面评级。
这里的评级方式类似于HITS算法,会由HUB网页和Authority网页集合。但是到这里停一下,这个两个值在SALSA算法中是不会由增强关系的,反而转向PageRank算法的模型来进行评级。具体的链接关系计算方式这里就不放出来了,大家可以去《链接分析算法之:SALSA算法》看,网上的文章不是学程序的话应该是比较难看懂的,这里直接跟大家说结果:
SALSA算法不需要进行迭代计算,计算效率更优;
SALSA算法在搜索结果上更精准,搜索质量很高;
最终页面的权值计算类似与PageRank算法的链入方式,但是引进了节点的说法,节点越多,最终权值越高。
SALSA算法是集合了PageRank和HITS算法的特点,进化成的一个连接分析算法,效果相对也要优于这两个算法,可以说是目前比较好用的算法之一。
Hilltop算法
首先看一下Hilltop算法的基本思想。
一方面,Hilltop是与用户查询请求相关的链接分析算法,吸收了HITS算法根据用户查询获得高质量相关网页子集的思想,即主题相关网页之间的链接对于权重计算的贡献比主题不相关的链接价值要更高.符合“子集传播模型”,是该模型的一个具体实例;
另一方面,在权值传播过程中,Hilltop也采纳了PageRank的基本指导思想,即通过页面入链的数量和质量来确定搜索结果的排序权重。
Hilltop算法的运行主要包含两个步骤:专家页面搜索及目标页面排序。
专家页面搜索
专家页面在Hilltop算法中是一个非常重要的定义,这是指有关键词被搜索时,这个关键词主题的相关高质量页面的集合,如何满足这个集合呢,第一是出链的量需要满足一定要求,这个要求可以人为指定的,另一个就是这些出链指向的页面关系要复合一定相关性。
建立专家页面索引:首先从海量的互联网网页中通过一定规则筛选出“专家页面”子集合,并单独为这个页面集合建立索引。
用户查询: Hilltop在接收到用户发出的某个查询请求时,根据用户查询的主题,从“专家页面”子集合中找出部分相关性最强的“专家页面”,并对每个专家页面计算相关性得分.
目标页面排序
根据“目标页面”和这些“专家页面”的链接关系来对目标页面进行排序。基本思路遵循PageRank算法的链接数量假设和质量原则,将专家页面的得分通过链接关系传递给目标页面,并以此分数作为目标页面与用户查询相关性的排序得分。
最后,系统整合相关专家页面和得分较高的目标页面作为搜索结果返回给用户。
最后说一下Hilltop算法的不足:
专家页面的集合可能存在比较少的情况,返回空的数据,即这个算法对于查询精度比较高,但是覆盖面比较小,因此这个算法基本不能独立运行,需要与别的连接分析算法结合运行。
因为对于查询结果需要从专家页面主题的集合中运行,因此也会影响到响应时间。
SҞPQ��