爬虫前的思考

1. 我为什么要学习爬虫?
  • 为了更好的学习python
  • 可以实践到很多的前端知识
  • 可以熟练使用selenium来定位元素
  • 可以更好的了解网站的架构
  • 可以更好了理解http/https协议
  • 可以锻炼编码能力
2. 爬虫前的思考
  • 网站对于爬虫着的限制
    1. robots.txt
    • 搜索引擎访问网站时,访问的第一个文件,在站点根目录下搜寻该文件
    • 怎么找到该文件?
      在网站的根目录下
  • 通过站点地图来了解网站的URLs

    Sitemap.xml怎么找到?

  • 估算网站规模
  • 识别网站所使用的技术: python的模块builtwith
  • 识别网站的所有者:python的模块python-whois
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容