作为一个专业的SEO人员来说一定要明白:
我们看到的和搜索引擎看到的网页并不是完全一样的
今天就给大家讲一下搜索引擎爬虫(spider)和普通用户的区别:
简单来说,spider是看网页源代码,而我们只能看到网页上的展现信息
具体来说有以下几点不同:
1、spider可以分辨网页中是否有隐藏内容,是否被挂了黑链等,但是spider却不能完全了解到网页中的图片的内容以及JavaScript、Iframe、Ajax和Flash中的内容,而我们普通用户却能简单判断一张图片到底是什么
2、spider对网站的访问是没有缓存的,而我们访问网页是有的
3、spider并不会注册与登录账号更不会下订单,而我们普通用户可以
4、spider不会访问robots里禁止的内容,而我们可以
5、spider抓取动态页面可能会陷入死循环,如万年历,但普通用户就不会
6、spider对网站的访问都是直接访问,不会有referer,而我们普通用户除了直接访问都会有referer
如果想了解spider对网站的抓取,可以在网站日志中分析看到
另外学过我之前python课程的朋友应该知道,spider对网站的访问其实是可以模拟的,一般普通用户访问User-Agent是浏览器的信息
我们利用python模拟搜索引擎访问网站的时候,只需要把头部信息中的UA更换成Spider就可以了。
所以学SEO一定要懂简单的HTML,这样跟搜索引擎才是同频的,因为搜索引擎都是看网页源代码的。
好了,今天就分享到这里
我是李亚涛,每天更新一篇原创文章,有1人看了有收获我就会非常开心!