阅读文档:
- 《优化网站的抓取与收录》中文版
- 《谷歌搜索引擎入门指南》第7页到11页
- 《创建方便 Google 处理的网址结构》
最好的规划URL目录层级的方式,就是按照业务方的逻辑来规划,从内容上应该是什么从属关系就怎么规划URL
一.因为爬虫固有的特点造成的抓取障碍:
重复URL的问题 例如:模板部分的URL
解决:搜索引擎已经解决这个问题搜索引擎采集的“待抓取列表”重复性问题
爬虫一边按照优先级抓取一部分的URL,一边把还未被抓取的URL记录下来等待下次抓取,只是这些还未被抓取的URL,下次爬虫来访问的频率就每个网站都不一样了, 每一类URL被访问的频率也不一样。
那些目录层级比较深的URL是次要抓取的;那些在模板部分的或重复率非常高的URL是被次要抓取的;那些动态参数多的URL是次要抓取的…..
二.因网站结构造成的爬取障碍
- 无限空间
例如:b2c产品列表/房产网
解决方案:使用robots.txt,禁止收录其含有动态参数的网址
巧用robots避免蜘蛛黑洞-zero
静态化的本质是URL唯一化,静态化只是一个手段而不是目的,为了保证URL的唯一化,可以把URL静态化、也可以用robots.txt或nofollo屏蔽动态内容、可以用rel=canonical属性、还可以在webmaster tool里屏蔽一些参数等等。
URL中要尽量用有意义的字符。这不是因为要在URL增加关键词密度而这么做的,是为了方便搜索引擎抓取。