登录注册写文章

如何规划好网站的URL-国平

如何规划好网站的URL-国平

阅读文档:

最好的规划URL目录层级的方式，就是按照业务方的逻辑来规划，从内容上应该是什么从属关系就怎么规划URL

一.因为爬虫固有的特点造成的抓取障碍:

重复URL的问题 例如:模板部分的URL
解决:搜索引擎已经解决这个问题
搜索引擎采集的“待抓取列表”重复性问题

爬虫一边按照优先级抓取一部分的URL，一边把还未被抓取的URL记录下来等待下次抓取，只是这些还未被抓取的URL，下次爬虫来访问的频率就每个网站都不一样了，每一类URL被访问的频率也不一样。
那些目录层级比较深的URL是次要抓取的；那些在模板部分的或重复率非常高的URL是被次要抓取的；那些动态参数多的URL是次要抓取的…..

二.因网站结构造成的爬取障碍

无限空间
例如:b2c产品列表/房产网
解决方案:使用robots.txt,禁止收录其含有动态参数的网址
巧用robots避免蜘蛛黑洞-zero

静态化的本质是URL唯一化,静态化只是一个手段而不是目的，为了保证URL的唯一化，可以把URL静态化、也可以用robots.txt或nofollo屏蔽动态内容、可以用rel=canonical属性、还可以在webmaster tool里屏蔽一些参数等等。

URL中要尽量用有意义的字符。这不是因为要在URL增加关键词密度而这么做的，是为了方便搜索引擎抓取。

最后编辑于：2017.12.07 23:16:49

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

33款可用来抓数据的开源爬虫软件工具
33款可用来抓数据的开源爬虫软件工具要玩大数据，没有数据怎么玩？这里推荐一些33款开源爬虫软件给大家。爬虫，即...
visiontry阅读 12,120评论 1赞 99
百度搜索引擎优化指南
搜索引擎优化（Search engine optimization，简称SEO），指为了提升网页在搜索引擎自然搜索...
翻滚吧海阔天空阅读 9,459评论 5赞 14
爬虫的"盗亦有道"-Robots协议
网络爬虫的君子协议网络爬虫的尺寸网络爬虫引发的问题性能骚扰法律风险隐私泄露网络爬虫的"性能骚扰"web...
若与阅读 33,776评论 2赞 43
新版本CocoaPods安装
自己记录留存一份，省得每次换电脑重新搜索~ 1. (可选)如果需要安装最新版本的pod，更新RubyGem ge...
毅个天亮阅读 1,937评论 0赞 0
红灯绿灯
时光在车流中静静的流淌当红灯亮起脚步将停当催促的车笛声响起那失去的怀抱是否仍温暖如昔充满安心与宁...
红尘醉卧阅读 1,436评论 0赞 0

赞1赞

赞赏

手机看全文