【Python】爬虫

1. 查看网站协议

地址栏输入:https://www.example.com/robots.txt

2. 常见输出:

User-agent: * (指定爬虫类型,* 表示所有爬虫。)

Disallow: /private/ (表示禁止抓取的路径。)

Allow: /public/ (表示允许抓取的路径(有时覆盖 Disallow)。)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容