SEO探秘：当你在百度搜索时，那些结果是怎么出来的，背后的原理有是什么？

在我看来，SEO不仅是一门技术，如果用得好，更是能通过搜索引擎（国内当然是百度）这样大的流量平台，为自己的网站引来很多流量。可能将来的你不会直接应用SEO技术为公司引流，但无论你的职业规划是运营总监还是市场总监，这部分内容必定需要有一定了解，最好是能懂其中的原理和关键点。

以下是我最近在阅读的Zac的《SEO实战密码：60天网站流量提高20倍》。基于与大家分享一起分享的想法，将自己的读书笔记整理出来，觉得核心的关键点梳理了一下。希望能对大家有所帮助。（如果你看完后觉得有帮助，可以文末点赞评论打赏。这样我有更多动力进行整本书的读书笔记分享哦~）

先上思维导图：

下面进入正题。

《SEO实战笔记》这本书一开始讲述了搜索引擎的发展历史，其中重点描述了各大搜索引擎公司的起起落落史。像我们比较熟知的Google退出中国市场都已经是比较后期的事情了。另外还讲述了搜索引擎与目录的区别等等（感兴趣的可以点击下面的思维导图上半部分）。因为与今天分享的主题不相关，而且也不能直接应用在工作中，所以这里我就不赘述，直接进入以下两个部分：

搜索引擎的显示格式：以百度页面为例

页面主题有两部分最主要，一是广告，二是自然搜索结果。

一、非自然搜索结果（广告部分）：

页面顶部有2个广告、底部有3个广告。作者撰写本书时，百度的右侧栏是8个广告。现在右侧“其它人还在搜”的推荐，以及“搜索热点”的推荐。目前的广告是触发了百度的凤巢系统，有稍微灰黄色的底作为区分（虽然不明显）。还有的搜索不会触发凤巢系统，还是以前的老广告推送。这种顶部广告则是没有区分，只在搜索结果的第四行标注了小小的“广告”二字。如下图

搜索广告在网络营销行业常被称为PPC，它属于搜索营销的另一个内容。

二、自然搜索结果部分（每页10条）

现在我们撇开广告，仔细看看每条自然搜索结果都有哪些部分组成。

标题：通常取自页面HTML代码中的标题标签。我们经常是根据标题内容决定s是否点击的，可见标题标签的写法，无论对排名还是对点击率都有很重要的意义。

页面说明：以上图为例，第二行、第三行、第四行都是页面说明。它有时候取自页面HTML中的说明标签，有的时候从页面可见文字中动态抓取相关内容。

网址、目录、文件名、百度快照等。最后一行显示网址，用户可以看到页面来自哪个网站、以及目录、文件名信息。

作者以前查询的时候，还可以显示该页面在百度数据库最后更新的日期。

然后是百度快照链接，用户可以点击快照，查看存储在百度数据库中的页面内容。也就是说页面被删除或者不能打开时，用户可以从快照中查看想要的内容。

另外大家应该页发现了，用户所搜索的关键词在标题和页面说明部分都用红色高亮显示。

三、整合搜索结果

整合搜索结果其实是搜索结果格式的一种，展示的方式和内容与前面说的那种常规效果有所区别。我根据现在百度的搜索结果，发现其可能有以下几种形式：

图片结果：

视频结果：

新闻搜索结果：

垂直搜索结果：

除了整合搜索结果之外，作者还简要介绍了缩进列表、全站链接、迷你全站链接、One-box、富摘要、面包屑导航、说明文字中的链接等多种搜索结果展示方式。有兴趣的伙伴可以去看原书。

搜索引擎的工作原理：我们按了enter键后，那些结果如何一秒显示的？

如果有人关注过则会发现，我们每搜索一次，百度都要显示76页结果。以每页10个结果来算，那就是不到一秒的时间搜索引擎算出了760个结果。想象一下中国网民那么多。每秒同时搜索的人数以万记。这背后的计算如此巨大。当了解了搜索引擎背后的简要工作原理介绍后，我感觉“计算”不仅是一件有技术严谨的事，更是一种充满艺术感的事。

一不小心感叹了。废话不多说，让我们开启“艺术之旅”。

一、爬行和抓取：

搜索引擎是用蜘蛛（spider）程序进行爬行和访问页面的。具体的访问过程是：（绘制图片）

1、爬行步骤：蜘蛛程序发送页面访问请求→服务器返回HTML代码→蜘蛛程序把收到的代码存入原始页面数据库

2、跟踪链接：为了抓取网商尽量多的页面，蜘蛛会跟踪页面上的链接，从一个页面爬到下一个页面。蜘蛛有两种爬行遍历策略：

深度优先：A→A1→A2→A3→A4爬完后再返回A，再爬B这条线，即B1→B2→B3→B4

广度优先：A→A1→B1→C1，再爬第三层

3、吸引蜘蛛：虽然理论上蜘蛛可以爬行和抓取所有页面，但实际上是不能也不会这么做。所以蜘蛛所要做的就是尽量抓取重要页面。而SEO就要想方设法吸引蜘蛛来抓取。主要有一下几方面的影响因素：

网站和页面权重：

网站更新度：

导入链接：

与首页点击距离：

4、地址库：为了避免重复爬行和抓取网站，搜索引擎会建立一个地址库。地址库中的URL有几个来源：

人工录入的种子网站

蜘蛛抓取页面后，从HTML中解析出的链接URL

站长通过表格提交进来的网址

5、文件存储：

6、爬行时复制内容检测：遇到权重很低的网站上大量转载或抄袭内容时，很可能不再继续爬行。

二、预处理：

“预处理”也被称为“索引”。蜘蛛抓取到的原始页面不能直接用于查询排名处理，必须经过预处理。主要包括：

1、提取文字：从HTML文件中去除标签、程序，提取出可以用于排名处理的网页文字内容。

2、中文分词：即把句子分为单词的组合。如“减肥方法”被分词为“减肥”和“方法”两个词。中文分词的方法基本分为梁总，一种是基于词典匹配，另一种时基于统计。

3、去停止词：停止词指出现频率高但对内容没有任何影响的词。如“的”“地”“啊”“哈”“却”“以”等。

4、消除噪声：绝大部分页面上还有一部分内容对页面主题也灭有贡献，如版权申明文字、导航条、广告等。搜索引擎需要识别并消除这些噪声。

5、去重：对页面特征关键词计算指纹，就是从页面主题内容中选取最有代表性的关键词以计算页面的重复性。

6、正向索引：在前面的工作完成后，接下来把每个页面记录成一个个关键词的集合。

7、倒排索引：正向索引还不能直接用户排名，因为用户不会按照文件名搜索，而是按照关键词搜索。所以要把文件对应关键词的映射转化为关键词到文件的映射。

8、链接关系计算：搜索殷勤为了计算网页的等级/重要性，必须计算网页之间的链接关系，如页面上有那些链接指向那些页面，每个页面有哪些导入链接，使用了什么锚文字等等。

9、特殊文件处理：

三、排名：

经过前面的蜘蛛抓取页面并预处理后，搜索引擎就准备好可以随时处理用户搜索了。

1、搜索词处理：与“预处理”过程中的词语处理有些类似，也包括中文分词、去停止词。除此之外还需要进行“指令处理”，即词与词之间的逻辑关系；拼写错误矫正和整合搜索触发。

2、文件匹配：分析关键词后，通过到怕索引快速匹配文件。

3、初始子集的选择：一个关键词经常会有千万级个文件，但用户并不需要知道所有匹配的文件。所以搜索引擎只需要计算前1000个结果的相关性就能满足要求（百度显示76页）。在计算相关性之前，会根据页面权重匹配出初始子集。

4、相关性计算：计算相关性是排名过程最重要的一步。主要包括以下几个方面

关键词的常用程度：越常用的词对搜索词的意义贡献越小，如“我们”。所以搜索引擎对搜索词串中的关键词并不是一视同仁地处理，而是根据常用程度进行加权。

词频及密度：一般来说在没有关键词堆积的情况下，搜索词在页面出现的次数越多，密度越高，说明页面与搜索词越相关。

关键词位置及形式：关键词出现在比较重要的位置，如标题标签、黑体、H1等，说明页面与关键词越相关。

关键词距离：如搜索“减肥方法”，切分后“减肥”和“方法”后，在页面中两个词出现的距离越近，相关性就会稍大一些。

链接分析及页面权重：页面有越多以搜索词为锚文字的导入链接，说明页面的相关性越强。

5、排名过滤及调整：进行相关性计算后，大体排名基本确定了。之后可能还会有一些过滤算法对排名进行轻微调整，比方说对有作弊嫌疑的页面机型惩罚等。

6、排名显示：排名确定后，排名程序调用原始页面的标题标签、说明标签、快照日期等。

7、搜索缓存：搜索引擎会把最常见的搜索词存入缓存，提高排名效率。

8、查询及点击日志：搜索引擎还会记录搜索用户的IP地址、搜索关键词、时间等。从而判断搜索结果质量、调整算法甚至预判搜索趋势等。

以上便是我认为的前两章中比较重要的内容，其中夹杂了一些个人的理解，如有错误，欢迎指正，希望大家能一起交流提升。

SEO探秘：当你在百度搜索时，那些结果是怎么出来的，背后的原理有是什么？

推荐阅读更多精彩内容