SEO优化-robots.txt解读

一、什么是robots.txt

robots.txt 文件由一条或多条规则组成。每条规则可禁止(或允许)特定抓取工具抓取相应网站中的指定文件路径。

通俗一点的说法就是:告诉爬虫,我这个网站,你哪些能看,哪些不能看的一个协议。

二、为什么要使用robots.txt

搜索引擎(爬虫),访问一个网站,首先要查看当前网站根目录下的robots.txt,然后依据里面的规则,进行网站页面的爬取。
也就是说,robots.txt起到一个基调的作用,也可以说是爬虫爬取当前网站的一个行为准则。

那使用robots.txt的目的,就很明确了。

  • 更好地做定向SEO优化,重点曝光有价值的链接给爬虫
  • 将敏感文件保护起来,避免爬虫爬取收录

三、robots.txt的示例

栗子如下:

User-agent: Googlebot
Disallow: /nogooglebot/

User-agent: *
Allow: /

Sitemap: http://www.wangxiaokai.vip/sitemap.xml

解析:

名为“Googlebot”抓取工具的用户代理不应抓取 http://wangxiaokai.vip/nogooglebot/ 文件夹或任何子目录。
所有其他用户代理均可访问整个网站。(不指定这条规则也无妨,结果是一样的,因为完全访问权限是系统默认的前提。)
网站的站点地图文件位于 http://www.wangxiaokai.vip/sitemap.xml

四、文件规范

1、文件格式和命名

  • 文件格式为标准 ASCII 或 UTF-8
  • 文件必须命名为 robots.txt
  • 只能有 1 个 robots.txt 文件

2、文件位置

必须位于它所应用到的网站主机的根目录下

3、常用的关键字

  • User-agent 网页抓取工具的名称
  • Disallow 不应抓取的目录或网页
  • Allow 应抓取的目录或网页
  • Sitemap 网站的站点地图的位置

五、百度网盘的应用

百度网盘的资源,到博文编写时间为止,已经不能用常用的搜索技巧site:pan.baidu.com 搜索关键字的方式,在baidu.com|google.com|biying.com(国际版还可以勉强搜索到)去搜索对应的资源。
禁止的方式,很大程度上是依靠robots.txt,而不是请去喝茶😆。

以下是访问 http://pan.baidu.com/robots.txt 得到的规则:

image

可以看到,百度网盘封杀了所有资源文件入口。
最狠的是最后一句:

User-agent: *
Disallow: /

我只想说有资源真的可以为所欲为😂


喜欢我文章的朋友,扫描以下二维码,关注我的个人技术博客,我的技术文章会第一时间在博客上更新

点击链接wall的个人博客

wall的个人博客

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 网络爬虫的君子协议 网络爬虫的尺寸 网络爬虫引发的问题 性能骚扰 法律风险 隐私泄露 网络爬虫的"性能骚扰"web...
    若与阅读 33,776评论 2 43
  • 网站 robots.txt 文件编写 Intro robots.txt 是网站根目录下的一个纯文本文件,在这个...
    天天向上卡索阅读 4,902评论 0 2
  • 1、津膜科技拟逾14亿元收购膜材料与水处理公司 津膜科技公告,公司拟以15.22元/股发行7283.89万股并支付...
    智尊寳阅读 975评论 0 0
  • 目前对我来说,关于成长的趋势在于一个词 独立。民主意识越来却强烈,特别是对于女性来说。这绝对是一个以前 现在 还有...
    桂蒲阅读 4,012评论 0 0
  • 爱上一段文字,爱上浅呤低唱,在文字的脉路中寻找份挚着真诚的爱恋,没有虚假的应承,没有心不在焉的答复,也没有无休无止...
    沧海一粟贝阅读 2,999评论 0 2