爬虫课程笔记

 听了老师的爬虫课,挺有收获。爬虫的原理很简单,本质上还是模拟浏览器发送HTTP请求。请求分请求头和请求体,请求头和请求体都由一系列键值对组成,常用的请求头有user-agent,cookie,referer。请求头可看作一系列的标签,标识了请求的信息。如从哪个设备发出的请求,从哪个页面跳转过来的。请求体可以看作请求的正文,需要请求哪些内容。道理很简单,不就用代码模拟浏览器发送请求嘛?况且HTTP请求也是无状态的嘛,浏览器不也是由程序写起来的么,浏览器怎么做,爬虫也怎么做就好啦。但实际操作起来才知道有各种各样的坑。想想开发浏览器的难度可是一点不比堪比操作系统小,遇到复杂的页面想爬取到正确的结果也不是那么容易。

 在成功获得正确请求前,客户端和服务器可能需要经过好几次交互,表现形式之一就是浏览器的跳转,重定向。不停更新请求参数,cookie。有些参数不知道怎么来的,得一点点去找。可能是页面中隐藏,也有可能是js代码生成的,这个需要不断总结,需要经验和耐心。

 很佩服老师一点一点讲得很清楚,没有用session一下子就获取结果。而是禁用了重定向,把每一次请求的参数都清清楚楚的写在了代码中,现在的工具越来越好用了,单纯爬取个简单页面也没啥难度,重要的还是稳定性,效率,数据的正确完整,爬虫的架构。期待后面的课程。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Web MVC Spring Web MVC 是包含在 Spring 框架中的 Web 框架,建立于...
    Hsinwong阅读 22,718评论 1 92
  • 会话(Session)跟踪是Web程序中常用的技术,用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Se...
    chinariver阅读 10,958评论 1 49
  • 爬虫概述 1. 目录清单 爬虫简介 通用爬虫和聚焦爬虫 网络请求那些事儿 网络数据抓包分析 2. 章节内容 2.1...
    小皇帝s阅读 3,935评论 0 1
  • 作为一位公众动物,公开地推崇粪便,倡导大家以粪便为食粮,是否有悖知识分子的道德良知呢? 在吃这个问题上,昆虫们往往...
    廿一行阅读 4,492评论 11 15
  • 爱一个人,就是想从头参与他的人生,一秒都不要错过,看看TA以前开心的,难过的,无助的,欣喜的样子。 陪着TA度过那...
    Destiny文翊阅读 1,930评论 0 2