登录注册写文章

爬虫前的思考

爬虫前的思考

1. 我为什么要学习爬虫？

为了更好的学习python
可以实践到很多的前端知识
可以熟练使用selenium来定位元素
可以更好的了解网站的架构
可以更好了理解http/https协议
可以锻炼编码能力

2. 爬虫前的思考

网站对于爬虫着的限制
1. robots.txt
- 搜索引擎访问网站时，访问的第一个文件，在站点根目录下搜寻该文件
- 怎么找到该文件？
  在网站的根目录下
通过站点地图来了解网站的URLs

Sitemap.xml怎么找到?
估算网站规模
识别网站所使用的技术: python的模块builtwith
识别网站的所有者:python的模块python-whois

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Android - 收藏集
Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
passiontim阅读 175,734评论 25赞 709
可爱的python测试开发库及项目(python测试开发工具库汇总)
欢迎转载，转载请注明来源：github地址谢谢点赞相关书籍下载 Python测试开发库参考资料 https:...
python测试开发阅读 10,103评论 1赞 67

区块链与微服务
搭建独特的区块链基础设施在应用程序开发领域，微服务和服务器非常流行。各地的开发者都在致力通过使用微服务架构和物件...
Poet基金会阅读 5,133评论 0赞 0
《致敬，九月》
这里，海子曾目击过众神的死亡也有人见过流星的坠落一个小女孩曾投奔过天空的怀抱有个男人支起篝火看过夜空几匹野...
松鯊阅读 1,612评论 0赞 0
（2015）卢某某与重庆市涪陵区精神病医院身体权纠纷，二审
案号（2015）渝三中法民终字第01227号关键词直接适用、非自愿住院、暴力行为、公安送治案件简述重庆市...
判决中的精神卫生法阅读 4,288评论 0赞 0

赞1赞

赞赏

手机看全文