搜索引擎原理简述

搜索需分两步走

1.匹配

1.1 索引

  • 下载所有网页
  • 分词,提取网页空的关键词
  • 建立关键词与网页之间的索引表
  • 在网页索引中,增加关键词在网页中的位置

1.2 匹配

  • 单词匹配,根据索引表,即可快速找到包含关键词的网页
  • 连词,需要检验多个关键词是否在同一网页的相近位置

1.3 空间换时间

搜索免不了需要检索整个互联网,但可以提前准备好索引。

2.排序

检索后,需要对网页进行相关度排序。

2.1 PageRank

  • Google首创的网页排序方案
  • 是以网页被引用的数量,作为排名的依据

2.2 图

  • PageRank实现的数据模型
  • 是有向无环图

2.3 网页计分规则

  • 被引用+1
  • 指向别人-1
  • 引用可被传递,即被引用者会受引用者的分数影响。这样的可靠性更高,也能防止造假

3.总结

处理以上对搜索引擎工作原理的简单概述,实际中的搜索引擎会,还会根据网页的更新时间、是否有广告等因素进行评估。再者,还会用到机器学习,进行个性化推送。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容