爬行抓取理论知识—蜘蛛爬行抓取:
1、蜘蛛爬行抓取特征主要是“快”“全”“准”,下来详细介绍他原理。蜘蛛大家都知道,可以比喻成现实生活中蜘蛛,蜘蛛爬行需要蜘蛛网,蜘蛛网可以理解互联网,是网站与网站之间形成大互联网,想让蜘蛛喜欢快速爬行抓取网站,尽可能在建站时注意模版、列表、文章页简单、和用户体验。
2、蜘蛛爬行原理特征:一种是深度优先,另一种是宽度优先。
(1)为什么深度优先:可以理解成像小孩刚学走路,肯定先爬行,爬路径越长越累,甚至爬一半就想休息就回去,如果网站列表、文章路径很长的话,蜘蛛爬一半就走,走时候什么内容都没带走,在网站爬半天都没找到内容,蜘蛛会觉得还不如爬其他网站。
(2)另一种是宽度优先:这个更容易理解,同一样层次页面蜘蛛比较喜欢内容好的,会优先爬行抓取。
3、快速引蜘蛛:做SEO优化外链,挑选一些资源当中高权重、IP浏览用户多,在不会删除文章的平台发一些网址,让百度知道这个网站已经建好了,很多人投票给网站(投票数越多越好,说明网站曝光度广)告诉蜘蛛快来爬行抓取我网站内容。
4、重复内容检测:建站时应注意事项—动态地址静态化,对于优化来讲url直径越短越重要。
(1):动态地址静态化,可以简单理解成重复内容检测,如一个动态页面入口链接(URL)指向不同一个地方,蜘蛛会觉得这个动态页面入口这么多链接(URL)地址,不知道那个链接(URL)地址是想要让他抓取的,蜘蛛会觉得抓取很耗时间,就不想抓取。
(2):网站路径:建站时候动态地址可以设置成静态化,有利于蜘蛛抓取速度。
5、地址库:可以理解成地址与库的概念,蜘蛛“快”“全”“准”爬行抓取互联网所有URL ,蜘蛛抓取地址放到他想存储的库里面去.这就叫地址库。