和搜索引擎的对话:SEO的原理和基础

SEO(Search Engine Optimization)

当网站发布上线以后,我们希望通过适当的优化调整,让它可以被搜索引擎更好地“理解”,在用户使用搜索引擎搜索的时候,网站的内容可以更恰当地暴露给用户。

互联网搜索引擎

组成部分

  1. 爬取(Crawling)
  2. 建立索引(Indexing)
  3. 返回结果(Serving Results)

PageRank

在 PageRank 以前,排序大多依靠对搜索关键字和目标页的匹配度来进行,这种排序方式弊端非常明显,尤其对于善于堆砌关键字“舞弊”的页面,很容易就跳到了搜索结果的首页。但是这样的页面对于用户来说,价值非常小。

PageRank 算法的本质,就是利用网页之间的关联关系来确定网页的影响力权重。而这个关联关系,就是网页之间的超链接,换言之,如果一个页面被各种其它页面引用,特别是被“重要”的网站和页面引用,这就说明这个页面的权重更高。

在实际搜索的时候,需要做到两个因素的平衡:一个是 Reputation,也就是上面说的这个影响力,它并不会因为用户单次搜索的关键字不同而改变;还有一个是 Proximity,也就是接近程度,这是根据用户搜索的关键字的匹配程度来确定返回网页的。

SEO 相关技术

白帽和黑帽

当我们明确了上述的目的,遵循搜索引擎规则,通过正当和高效的技术途径来实现 SEO 的效果,这样的方法叫做白帽(White Hat)法。相应的,如果是通过作弊、欺骗这样的手段,就叫做黑帽(Black Hat)法。

搜索引擎在评估网站前文所述的影响力的时候,有许许多多不同的“Ranking Signal”,它指的就是会影响返回的网页排序的“信号”,它们共同决定了一个页面的影响力, 例子:

  1. 网站的正常运行时间。比方说,如果一个站点,在爬虫爬取的时候总是遭遇 4xx、5xx 这样的错误,显然对影响力是一个负面的加权。
  2. 网站的年龄,网页内容的新鲜程度,好的原创内容总是最好的优化方式。
  3. 网站采用 HTTPS 还是 HTTP,显然 HTTPS 要更优。
  4. HTML 代码的质量,是否存在错误。
  5. 网页在站点访问的深度。

黑帽法:

  • 关键字堆砌
  • 链接农场(Link Farm)
  • Article Spinning

站内优化和站外优化

站内优化,其实指的就是在自己管理的网站内部做优化工作来实现 SEO。比如我们之前反复提到的关键字,

站外优化则和站内优化相反,优化工作是在目标站之外开展的,比如众所周知的“友情链接”,就是一种提供外链的站外优化方式。

roberts.txt

“roberts.txt”是网站根目录下直接能够访问到的文本文件,它是一个对于网络爬虫的规约,告诉它这个网站下哪些内容你是可以爬取的,哪些内容你是不能爬的。值得注意的是,roberts.txt 不是标准,也不是规范,而是一种“约定俗成”,几乎所有的搜索引擎都会遵守它。

网站地图

网站地图则可以清晰直接地告诉搜索引擎网站内“重要”的页面都有哪些(无论是否被链接指向),它们的更新习惯,包括最近一次是什么时候更新的,更新频率是多少,以及对于整个网站来说,不同页面的重要性比重是多少。

对于网站地图,除了被动等待爬虫的抓取,搜索引擎服务往往还提供另一种方式来报告网站地图的变更,那就是允许网站管理员主动去提交变更信息,这种方式和爬虫来爬取比较起来,类似于我们从第一章就开始讲的 pull 和 push 的区别,这种方式对于网站管理员来说更麻烦,但是显然可以更为及时地让搜索引擎获知并收录最新数据。

统计分析

在进行 SEO 的改动调整之后,我们需要一些方式来跟踪和评估效果。像 Google Analytics 和百度统计,就提供了这样的功能。

扩展阅读

  • 文中介绍了几个典型的 SEO 黑帽法,作为视野的拓展,你可以阅读这篇文章了解更多的黑帽法。特别地,你也可以参阅这一词条了解更多历史上的 “Google 轰炸”事件。
  • 如果对 Google Analytics 感兴趣的话,那么官方有一些很好的学习材料;如果用的是百度统计,那么你也可以浏览一下官方的文档
  • 对于 PageRank 算法,互联网上其实有很多学习材料,比如维基百科的词条,再比如科普作家卢昌海的文章——谷歌背后的数学。这个算法的来源,是 The Anatomy of a Large-Scale Hypertextual Web Search Engine 这篇 Sergey Brin 和 Lawrence Page 最早写的关于 Google 搜索引擎原理的论文,当然,它并非这一讲的学习周期内要求的阅读材料,而仅供感兴趣且有余力的你阅读。
  • 单页应用(Single Page Application)的搜索引擎优化,专栏第三章已经介绍了 SPA 的优势,但是 SPA 网站并不是一个擅长将喜怒哀乐表现出来的孩子,他对擅长察言观色的搜索引擎颇不友好,因此要对 SPA 网站进行有效的 SEO,是需要一些特殊技巧的,推荐阅读。
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 周围那么多人都不再看好SEO了,但是不知道怎么的,我就开始走到了SEO这条路上,权当是一个学习笔记吧。把这些bas...
    xyli晓艳阅读 1,040评论 0 4
  • seo--目的是提高网站的搜索频率,大点营销广告或者别的业务! 心得---思维的想法永远是大于你的技术--学习技术...
    love2013阅读 988评论 0 2
  • 这个系列的第六个主题,主要谈一些搜索引擎相关的常见技术。 1995年是搜索引擎商业公司发展的重要起点,《浅谈推荐系...
    我偏笑_NSNirvana阅读 6,701评论 3 24
  • 链接分析 我们在最开始说过,搜索引擎在查找能够满足用户需求的网页时,主要会考虑两方面的因素,一方面是用户发出的查询...
    我偏笑_NSNirvana阅读 3,313评论 1 12
  • 久违的晴天,家长会。 家长大会开好到教室时,离放学已经没多少时间了。班主任说已经安排了三个家长分享经验。 放学铃声...
    飘雪儿5阅读 7,552评论 16 22