域名不属于URL
搜索引擎喜欢静态代码
http://是网络协议,属于网址,https://是网络高级协议
URl称为网页地址,网址后面的内容是网民来源,URL层级越短越容易被抓取,有助于排名。
如何缩减织梦层级?
步骤如下:
织梦后台→系统→系统基本参数→删除 /a 保存(文档html默认保存路径)→核心→栏目管理→选择其中一个栏目更改→文件保存目录→一个 /a →高级选项→文章命名规则→Y 后面“/”改成“-”→生成
需要手动改,没有一键全部改
robots的协议
一、robots.txt协议
1,是纯文本协议,用于声明该网站中不想被蜘蛛访问部分,或者指定蜘蛛抓取的部分
2,不是固定,而是一种约定,需要蜘蛛自觉遵守的一种习俗
二、robots.txt的作用
1,防止私密或重要内容被搜索引擎抓取
2,节省服务器资源,从而提高服务质量
3,减少重复抓取,提高网站质量指定sitemap文件位置
三、robots.txt的常用语法 *是通配符
User-agent
:* 用户代理 搜素引擎针对哪个搜素引擎蜘蛛,这里的*代表搜素引擎种类,*是通配符
1、AIIOW 允许:定义的允许蜘蛛抓取某个栏目或文件
2、AIIOW:/cgi-bin/:定义是允许访问cgi-bin目录
3、AIIOW:/*htm$ :允许访问意htm为后缀的URL
4、Disallow 不允许 :禁止蜘蛛抓取某个栏目或文件
5、User-agent/admin/禁止抓取admin目录
6、Grawi-delay 延迟时间 间隔抓取时间
7、Visit-time:0100-1600 在每天的01:00-16:00允许抓取
8、Request-rate:20/1m 0900-1359 允许在每天9:00-13:59允许抓取,以每秒20抓取
仅允许百度蜘蛛、谷歌蜘蛛访问格式为:
Userr-agent:baiduspider
Allow:/
Userr-agent:Guglebot
Allow:/
Userr-agent:*
Disallow:/
蜘蛛是从上而下爬行的,假设网站只有A,B文件夹,只想让百度蜘蛛看到A文件,格式为:
Userr-agent:baiduspider
Allow:/A
Disallow:/B
Userr-agent:*
Disallow:/
网站地图
网站地图可以理解成是一个文件,包含了自己网站很多重要的链接,蜘蛛可以通过网站地图提高工作效率,能被快速收录页面,一般是和robots.txt放在一起
如何生成网站地图?
百度搜索sitemap→点击小爬虫→输入域名→生成→选择后缀为XML的→出现代码(整篇复制)→桌面新建文本文档,改名sitemap.xml→用记事本打开→粘贴代码
在桌面新建一个robots.txt文本文档,在尾部加上sitemap:http://网址/sitemap.xml,用ftp工具上传到根目录里。