爬虫基础

我们学习爬虫时候，要先明白这么几件事！
1.爬虫是什么？
2.爬虫实现爬取的原理是什么？
3.爬虫从发起请求到服务器给出响应中间经历了什么？

我们先来看看第一个问题什么是爬虫？

在了解爬虫之前我们先要知道这么几个含义
1.URI：统一资源标识符
2.URL：统一资源定位符，URI的子集
3.超文本：网页的HTML代码
4.HTTP:超文本传输协议
5.HTTPS:HTTP协议的安全版，在HTTP下层加入了SSL层，安全性能更好

好了那么我们来说说什么是爬虫？
首先我们要认清一个概念，就是互联网是什么样的，你们可能会说互联网看不见摸不到，我们怎么知道是什么样的！好那我来给你举几个例子，让你重新认识一下互联网！

https://www.baidu.com/
https://www.baidu.com/s?wd=python
https://baike.baidu.com/item/Python/

有没有发现些什么东西？https我们了解了，是一个安全版的HTTP协议，这个暂时不管，后面的东西你们发现了吗？有没有向我们的电脑里的文件夹的路径

C:\program\python

有没有感觉很像，可以这么理解，互联网就是一个大的电脑，而你上网看东西或者搜索东西，就像是在文件夹里一层一层在找你所需要的东西！到这里应该对互联网有个概念了吧！
那么我们再来说说爬虫是什么？
我们知道互联网是类似电脑里的一个有一个的文件夹，理论上我们一个个点开就能翻遍互联网，也能知道互联网里都有什么东西，爬虫就是这样按照一个个类似“蜘蛛网”的路来走遍互联网，按照一定规则找到并保存我们所需要的数据并将其自动化，这就是爬虫！懂了吗？

下面我们来说说爬虫的工作原理：

爬虫是通过一定的规则来获取网页信息并保存的的自动化的程序

爬虫从发起请求到服务器相应中间经历了什么？

浏览器向网站所在的服务器发送了一个请求，网站服务器收到这个请求后进行处理和信息解析，然后返回对应的相应请求

我们来说说这句话里面的几个关键词

请求：由客户端向服务端发出，分为四部分，请求方法，请求网址，请求头，请求体
1.请求方法：请求方法分为两种， GET（参数直接包含在URL里）和POST（在提交表单时候发起，常见的登录操作，不会体现在URL中）
2.请求网址：即网页的URL地址
3.请求体：一般承载的内容是post请求的表单数据，对于get请求体为空，如果在爬虫里使用POST请求，那么就要正确使用Content-Type和POST表单提交数据的关系
4.请求头：用来说明服务器要使用的附加信息，这里面有这么几个参数

Accept：请求报头域，用于指定客户端可以接受的信息类型

Host：客户端指定自己想访问的http服务器的域名/IP 地址和端口号

Cookie：是网站为了辨别用户进行的会话，进而存储在用户本地的数据，主要是维持当前访问会话，也可以用来进行身份识别

Referer：用来表示请求是从哪个页面发过来的

User-Agent：UA 可以让服务器辨别用户的操作系统，浏览器的版本等信息，在爬虫是加上信息，可以伪装成浏览器

相应：由服务器返回给客户端，分为三部分：相应状态码，相应头，相应体
响应状态码：200表示正常，404表示页面未找到，500表示服务器内部发生错误
其他常用的相应状态码
响应头：包含了服务器的应答信息

Date:标识响应的产生时间

last-Modified:指定资源的最后修改时间

Content-Encoding：指定响应内容的编码

Content-Type：文档类型，指定返回的数据类型

Location：Location响应头用于重定向接收者到一个新URI地址

Server:Server响应头包含处理请求的原始服务器的软件信息。此域能包含多个产品标识和注释，产品标识一般按照重要性排序
相应体：请求网页时，响应体就是HTML代码或者JSON数据（ps:别看写的少，这部分是最重要的，我们需要的数据都在这里！！！）

到这里，基本已经基本了解爬虫的基本常识！明天我会说一说爬虫其他的知识！

爬虫基础

我们先来看看第一个问题什么是爬虫？

相关阅读更多精彩内容

友情链接更多精彩内容