登录注册写文章

爬虫课程笔记

爬虫课程笔记

听了老师的爬虫课，挺有收获。爬虫的原理很简单，本质上还是模拟浏览器发送HTTP请求。请求分请求头和请求体，请求头和请求体都由一系列键值对组成，常用的请求头有user-agent，cookie，referer。请求头可看作一系列的标签，标识了请求的信息。如从哪个设备发出的请求，从哪个页面跳转过来的。请求体可以看作请求的正文，需要请求哪些内容。道理很简单，不就用代码模拟浏览器发送请求嘛？况且HTTP请求也是无状态的嘛，浏览器不也是由程序写起来的么，浏览器怎么做，爬虫也怎么做就好啦。但实际操作起来才知道有各种各样的坑。想想开发浏览器的难度可是一点不比堪比操作系统小，遇到复杂的页面想爬取到正确的结果也不是那么容易。

在成功获得正确请求前，客户端和服务器可能需要经过好几次交互，表现形式之一就是浏览器的跳转，重定向。不停更新请求参数，cookie。有些参数不知道怎么来的，得一点点去找。可能是页面中隐藏，也有可能是js代码生成的，这个需要不断总结，需要经验和耐心。

很佩服老师一点一点讲得很清楚，没有用session一下子就获取结果。而是禁用了重定向，把每一次请求的参数都清清楚楚的写在了代码中，现在的工具越来越好用了，单纯爬取个简单页面也没啥难度，重要的还是稳定性，效率，数据的正确完整，爬虫的架构。期待后面的课程。

最后编辑于：2018.07.06 15:44:26

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Spring Framework 5 MVC 官方手册译文
Spring Web MVC Spring Web MVC 是包含在 Spring 框架中的 Web 框架，建立于...
Hsinwong阅读 22,718评论 1赞 92
理解Cookie和Session机制
会话（Session）跟踪是Web程序中常用的技术，用来跟踪用户的整个会话。常用的会话跟踪技术是Cookie与Se...
chinariver阅读 10,958评论 1赞 49

python爬虫01
爬虫概述 1. 目录清单爬虫简介通用爬虫和聚焦爬虫网络请求那些事儿网络数据抓包分析 2. 章节内容 2.1...
小皇帝s阅读 3,935评论 0赞 1
公众动物
作为一位公众动物，公开地推崇粪便，倡导大家以粪便为食粮，是否有悖知识分子的道德良知呢？在吃这个问题上，昆虫们往往...
廿一行阅读 4,492评论 11赞 15
爱久了就是习惯了
爱一个人，就是想从头参与他的人生，一秒都不要错过，看看TA以前开心的，难过的，无助的，欣喜的样子。陪着TA度过那...
Destiny文翊阅读 1,930评论 0赞 2

赞1赞

赞赏

手机看全文