爬虫基础

我们学习爬虫时候,要先明白这么几件事!
1.爬虫是什么?
2.爬虫实现爬取的原理是什么?
3.爬虫从发起请求到服务器给出响应中间经历了什么?

我们先来看看第一个问题什么是爬虫?

在了解爬虫之前我们先要知道这么几个含义
1.URI:统一资源标识符
2.URL:统一资源定位符,URI的子集
3.超文本:网页的HTML代码
4.HTTP:超文本传输协议
5.HTTPS:HTTP协议的安全版,在HTTP下层加入了SSL层,安全性能更好

好了那么我们来说说什么是爬虫?
首先我们要认清一个概念,就是互联网是什么样的,你们可能会说互联网看不见摸不到,我们怎么知道是什么样的!好那我来给你举几个例子,让你重新认识一下互联网!

https://www.baidu.com/
https://www.baidu.com/s?wd=python
https://baike.baidu.com/item/Python/

有没有发现些什么东西?https我们了解了,是一个安全版的HTTP协议,这个暂时不管,后面的东西你们发现了吗?有没有向我们的电脑里的文件夹的路径

C:\program\python

有没有感觉很像,可以这么理解,互联网就是一个大的电脑,而你上网看东西或者搜索东西,就像是在文件夹里一层一层在找你所需要的东西!到这里应该对互联网有个概念了吧!
那么我们再来说说爬虫是什么?
我们知道互联网是类似电脑里的一个有一个的文件夹,理论上我们一个个点开就能翻遍互联网,也能知道互联网里都有什么东西,爬虫就是这样按照一个个类似“蜘蛛网”的路来走遍互联网,按照一定规则找到并保存我们所需要的数据并将其自动化,这就是爬虫!懂了吗?

下面我们来说说爬虫的工作原理:

爬虫是通过一定的规则来获取网页信息并保存的的自动化的程序

爬虫从发起请求到服务器相应中间经历了什么?

浏览器向网站所在的服务器发送了一个请求,网站服务器收到这个请求后进行处理和信息解析,然后返回对应的相应请求

我们来说说这句话里面的几个关键词

请求:由客户端向服务端发出,分为四部分,请求方法,请求网址,请求头,请求体
1.请求方法:请求方法分为两种, GET(参数直接包含在URL里)和POST(在提交表单时候发起,常见的登录操作,不会体现在URL中)
2.请求网址:即网页的URL地址
3.请求体:一般承载的内容是post请求的表单数据,对于get请求体为空,如果在爬虫里使用POST请求,那么就要正确使用Content-Type和POST表单提交数据的关系
4.请求头:用来说明服务器要使用的附加信息,这里面有这么几个参数

  • Accept:请求报头域,用于指定客户端可以接受的信息类型
  • Host:客户端指定自己想访问的http服务器的域名/IP 地址和端口号
  • Cookie:是网站为了辨别用户进行的会话,进而存储在用户本地的数据,主要是维持当前访问会话,也可以用来进行身份识别
  • Referer:用来表示请求是从哪个页面发过来的
  • User-Agent:UA 可以让服务器辨别用户的操作系统,浏览器的版本等信息,在爬虫是加上信息,可以伪装成浏览器

相应:由服务器返回给客户端,分为三部分:相应状态码,相应头,相应体
响应状态码:200表示正常,404表示页面未找到,500表示服务器内部发生错误
其他常用的相应状态码
响应头:包含了服务器的应答信息

  • Date:标识响应的产生时间
  • last-Modified:指定资源的最后修改时间
  • Content-Encoding:指定响应内容的编码
  • Content-Type:文档类型,指定返回的数据类型
  • Location:Location响应头用于重定向接收者到一个新URI地址
  • Server:Server响应头包含处理请求的原始服务器的软件信息。此域能包含多个产品标识和注释,产品标识一般按照重要性排序
    相应体:请求网页时,响应体就是HTML代码或者JSON数据(ps:别看写的少,这部分是最重要的,我们需要的数据都在这里!!!

到这里,基本已经基本了解爬虫的基本常识!明天我会说一说爬虫其他的知识!

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • HTTP基本原理 URI、URL、URN(Uninform Resource) URI(Identifier):统...
    GHope阅读 6,561评论 2 26
  • 1、爬虫概述 爬虫、又被称为网路爬虫,主要指从互联网上进行数据采集的脚本——后者程序,是进行数据分析和数据挖掘的基...
    命运丿阅读 3,437评论 0 2
  • 爬虫基础 HTTP基本原理 URI和URL URI(Uniform Resource Identifer):统一资...
    柄志阅读 3,283评论 0 1
  • 1.爬虫概述 爬虫又称为网络爬虫,主要指代从互联网是上进行数据采集的脚本程序,是进行数据分析和数据挖掘的基础爬虫首...
    陌殇花开风不语阅读 3,823评论 0 0
  • 故事2——宝啥都不学能行吗? 十天前,我去上海参加仑静老师的亲子沟通NVC工作坊,恰逢爱人也出差,接送孩子的事儿就...
    石头妈妈王春芳阅读 4,032评论 0 2

友情链接更多精彩内容