搜索引擎的历史和技术架构

近段时间要学习搜索引擎技术,为了以后翻阅方便,就把自己学习到的东西整理一下!

搜索引擎的历史发展

学习每一项技术,都是要从这项技术的历史说起,很多人不喜欢看关于技术的历史叙述,感觉和技术本身的内容无关,看了纯属是浪费时间,其实不然!
我们从一项技术的历史里边可以了解这项技术的发展过程,对于该技术从开始的简单到后面变得复杂这一变化过程更加的清楚,有助于我们更加深刻的理解该技术!
现在我们扯回到正题上,说一说搜索引擎的历史,看看搜索引擎是怎么从一开始的简单玩具一步步发展成现在非常复杂的巨无霸的!搜索引擎技术是目前互联网技术中最具技术含量的技术之一,看看它都经历了哪些阶段。

史前时代:分类目录的一代

最具代表的是雅虎,雅虎估计好多人不太熟悉了,我就举个国内相关的例子吧,就是hao123,它就是一个页面,上面是各种优质网站的链接,通过人工收集整理,把属于各个类别的高质量网站或者网页分门别类罗列,用户可以通过点击这些链接跳到自己想去的网站,几乎没有任何技术含量可言。。。

分类目录举例

第一代:文本检索的一代

主要是使用信息检索模型,利用布尔模型、向量空间模型或者概率模型来计算用户的查询关键词和网页文本内容的相关程度。相比分类目录已经进步相当多了,但是体验依然不是很好。因为没有对网页之间丰富链接关系进行利用。

第二代:链接分析的一代

这代搜索引擎运用了网页之间的链接关系,并深入挖掘和利用了网页链接所代表的含义,改善了搜索的质量。网页链接代表了一种推荐关系,被推荐次数越多的网页就代表它越重要,具有代表性。

这里边最具有代表性的就是Google的PageRank链接分析技术,现在所有的商业搜索引擎都使用了链接分析技术。但是这代搜索引擎依然有一些缺点,就是千人一面,不同的用户只要输入的搜索词一样,那么得到的搜索结果一定也是一样的,在现在这个个性化十足的时代,显然体验已经不好了。还有一些网站为了提高自己的网站排名,针对链接分析技术想出了很多作弊手段。革命尚未成功,同志仍需努力!

第三代:用户中心的一代

现在的搜索引擎都在向着这个目标发展,这个属于第三代搜索引擎了(不算分类目录那个史前一代)。主要是以理解用户需求为核心。不同用户即使是输入同一个查询关键词,可能目的也不同。比如同样是输入“苹果”,apple果粉肯定是想要得到关于苹果电子产品的信息,而一个果农则是想要得到能吃的那个苹果的信息。即使是同一个人输入相同的查询关键词,但是因处于时间,地点的不同而发生需求的变化。
现在解决方案包括获取用户发送查询关键词时的时间和地理位置以及用户过去发出的查询关键词及相应的点击记录等历史信息来挖掘用户的真实需求。

搜索引擎的技术架构

搜索引擎技术架构图

搜索引擎和推荐系统的最核心部分都是索引和排序。

根据这个架构图,介绍一下搜索引擎的每一部分:

首先是 爬虫系统 从互联网抓取网页数据,然后存储到本地,因为互联网上有很多网页资源是相同的(比如同一篇文章在凤凰网上有,在一点资讯平台上也有),所以需要把下载好的网页进行 去重处理。后面就要涉及到比较核心的部分了,对网页建立 倒排索引(现在不理解不要紧,后续博客一一介绍,看到新鲜概念,保持好奇心是学习技术的很好方法)和 链接关系 。由于网页数量太大,搜索引擎不仅需要保存网页原始信息,还要存储一些中间的处理结果,单个机器是干不了这个大活的,所以要有一个云存储和云计算平台来做支撑。

当用户输入查询关键词进行查询时,首先到缓存中去查找(世界上没有缓存解决不了的事情,如果有,那就两个缓存吧!哈哈),查到就返回,没查到就要进入下面的网页排序模块了,需要用倒排索引的内容相似性和链接关系的链接分析这两个因素来进行网页排序,最后把结果返回给用户。

鉴于现在作弊行为比较泛滥,所以反作弊模块也是必需的,如何自动发现作弊网页并对其处罚是搜索引擎技术的重要组成部分。

用这篇博客作为搜索引擎系列的开始吧,可以让各位同学大致了解一下搜索引擎的发展历史和整体技术架构,对搜索引擎有一个大致的认识!

后续博客会深入搜索引擎的各个关键模块和具体技术细节!欢迎关注!
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,001评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,210评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,874评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,001评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,022评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,005评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,929评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,742评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,193评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,427评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,583评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,305评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,911评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,564评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,731评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,581评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,478评论 2 352

推荐阅读更多精彩内容