我们一般做了一个新的网站,搜索引擎都会先收录首页。
有的网站收录首页后,甚至1个月内都没有收录内页。
搜索引擎原理大致分为三步:网页收集、预处理、查询服务
网页收集又有定期搜集和增量收集
定期收集就是每隔一段时间全面抓取一次
增量收集就是先搜集一批,后面再搜索新的页面和之前搜集过的有改变的网页
所有的搜索引擎不可能抓取到全部的web网页,为了提升效率,搜索引擎从种子站点开始抓取,并且抓取分为2种策略:
1、深度优先策略:就是沿着一个链接一直往下抓取
2、广度优先策略:就是抓取到一个网页,然后横向把这个页面的所有URL先抓取一篇,然后再沿着这些URL往下重复执行以上动作
其实搜索引擎真实在爬取网页的时候是两种策略混合使用。
为什么网站都先收录首页?
因为对于一个新站来说,搜索引擎会先采取广度优先策略进行抓取,所以一般会先抓取你的网站首页,也就是先抓取比较重要的页面,至于内页的一些信息,后面根据网站情况再进行抓取。
从这个点其实也可以看出一个现象:
一般搜索引擎给排名先给首页排名,如果我们评估一个网站做的怎么样?那我们直接看一下有没有内页排名就可以了,如果有内页排名,那基本可以判断这个网站做的还可以,做起SEO优化和排名也会容易一点。
好了,今天就分享到这里
我是李亚涛,每天更新一篇原创文章,有1人看了有收获我就会非常开心!