date:2019-08-10
《这就是搜索引擎》作者:张俊林
以用户为中心的搜索引擎
理解用户发出查询词的真正需求——
用户真正的需求是什么?根据时间、地理位置、过往查询和点击记录等信息进行分析。
哪些信息与用户需求真正相关?内容和查询词相关性判定。
哪些信息可以信赖?链接分析,判断网页是否可信赖。
搜索引擎技术架构
后台(资源获取,不需要实时计算):
网络爬虫→网页去重→网页解析(获取①主体内容,使用“倒排索引”结构保存,用于内容相似性判断②其他网页链接,保存链接关系,用于链接分析)
资源获取过程中网页数量太多,需要部署在云存储和云计算平台,在分布式条件下完成。
前台(响应查询,实时计算):
查询词分析、用户需求推导→查找引擎缓存系统(不同查询意图对应的搜索结果)→网页排序(根据内容相似性+网页质量等加权因素进行排序)
反作弊:防止网页非法提高自己的搜索排名。