Robots协议也称作爬虫协议、机器人协议、它的全名叫作网络爬虫排除标准,用来告诉爬虫和搜索引擎哪些页面可以抓取,哪些不可以抓取。它通常是一个叫作robots.txt的文本文件,一般放在网站的根目录下。
分析Robots协议
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
推荐阅读更多精彩内容
- 个人学习笔记,方便自己查阅,仅供参考,欢迎交流 分析Robots协议 利用robotparser模块,可以实现网站...
- 1.异常处理 URLError类来自urllib库的error模块,它继承自OSError类,是error异常模块...
- 引言 推荐教材 关注搜索引擎的原因 互联网上最重要的应用系统 人类历史上最大规模的信息集散平台 学术界重要的研发平...