2-2 URL优化(uniform resource locator)统一资源定位符,也被成为网页地址,是因特网站标准资源的地址http://属于网络协议 https://属于高级网络协议访问网站页面=访问FTP根目录/wwwroot一、URL包含五个部分组成1.传送协议
2.服务器:域名就是ip服务器地址3.端口号4.路径5.询问:?后面是追踪网民来源(不影响可以忽视)二、容易被蜘蛛抓取1.URL层级越短越容易被抓取2.有助于提升搜索引擎结果排名:1、页面被收录是排名的前提 2、层级越浅重要度越高,从而提高页面权重
三:URL层次缩减规则1.减少不必要的目录层级织梦后台:系统--系统基本参数--文档HTML默认保存路径--删除/a--确定织梦后台:核心--网站栏目管理--栏目--更改--常规选项--文件保存目录
/a删除--高级选项--文章命名规则--
改成
(/ 变成 -)--确定--一键更新2.建议保持最多三个层级四:域名的选择1.选择包含关键的域名2.选择包含关键词拼音或者缩写的域名五、URL重写1.是把动态页面的URL转化成伪静态URL的过程2.看不懂的代码就是动态: 打开网页源代码---动态页面:是通过执行asp、PHP、jsp、net看得懂的代码就是静态=伪静态:htm、shtm、shtml、html
2-2 robots与网站地图的协议一、robots.txt协议1是.纯文本协议,用于声明该网站中不想被蜘蛛访问部分,或者指定蜘蛛抓取的部分2.不是固定,而是一种约定,需要蜘蛛自觉遵守的一种习俗二、robots.txt的作用1.防止私密或重要内容被搜索引擎抓取2.节省服务器资源,从而提高服务质量3.减少重复抓取,提高网站质量指定sitemap文件位置三、robots.txt的常用语法 *是通配符 /文件符(开始前要写/结尾也要/)User-agent:用户代理(特支出搜素引擎
针对哪个搜素引擎蜘蛛
这里的*代表搜素引擎种类,*是通配符
1、AIIOW 允许:定义的允许蜘蛛抓取某个栏目或文件
2、AIIOW:/cgi-bin/:定义是允许访问cgi-bin目录
3、AIIOW:/*htm$ :允许访问意htm为后缀的URL
4、Disallow 不允许 :禁止蜘蛛抓取某个栏目或文件5、user-agent/admin/禁止抓取admin目录
6、Grawi-delay 延迟时间 间隔抓取时间
7、Visit-time:0100-1600 在每天的01:00-16:00允许抓取
8、Request-rate:20/1m 0900-1359 允许在每天9:00-13:59允许抓取,以每秒20抓取
(robots协议一般不被抓取动态代码、织梦的广告、后台账号)