C.Python爬虫基础之HTTP协议

HTTP协议,.即超文本传输协议(HyperText Transfer Protocol),是一种规定了浏览器和万维网服务器之间互相通信的规则。设计HTTP最初目的是为了提供发布和接收HTML页面的方法。

HTTP工作原理

采用了请求Request/响应Response模式:

  • 客户端向服务器发送一个请求报文,请求报文包含请求的方法、URL、协议版本、请求头部和请求数据;
  • 服务器以一个状态行作为响应,响应报文内容包括协议的版本、连接状态、服务其信息、响应头部和响应数据。
    报文格式来源网络

在浏览器地址栏键入URL后,按回车会经历以下流程:
1、浏览器向DNS服务其请求解析URL中域名所对应的IP地址;
2、解析出IP地址后,根据该IP地址和默认端口80,和服务器建立TCP连接;
3、浏览器发出读取文件的HTTP请求,该请求报文作为TCP三次握手的第三个报文的数据发送给服务器;
4、服务器对浏览器请求作出响应,并把对应html文本发送给浏览器;
5、释放TCP连接;
6、浏览器将该html文本并显示内容。

HTTP协议常见请求方法

  • GET 要求将URL定位的资源放在响应报文的数据部分,回送给客户端。使用GET方法时,请求参数和值附加在URL后面,利用一个问号(“?”)代表URL结尾与请求参数的开始,传递参数长度受限制;

  • HEAD 与GET方法一样,都是向服务器发出指定资源的请求。该方法不必传输全部内容,就可以获取其中“关于该资源的信息”元数据;

  • POST 向指定资源提交数据,请求服务器进行处理(例如提交表单或上传文件)。数据被包含在请求中,请求可能回创建新的资源或修改现有资源,以名称/值形式出现;

  • PUT 向指定资源未知上传器最新内容;

  • DELETE 请求服务其删除Request-URI所标识的资源;

  • TRACE 回显服务器收到的请求,主要用于测试或诊断;

  • CONNECT 通常用于SSL加密服务的链接;

  • OPTIONS 可使服务器传回该资源所支持的所有HTTP请求方法,用“*”表示资源名称,向Web服务器发送OPTIONS请求,可测试服务器功能是否正常运作。

HTTP协议响应状态码

100 Continue
200 OK 请求成功(其后是对GET和POST请求的应答文档);
305 Use Proxy 客户请求的文档应通过Location头所指明的代理服务器提取;
400 Bad Request 服务器未能理解请求;
404 Not Found 服务器无法找到请求页面;
500 Internal Server Error 请求未完成。服务器遇到不可预知的情况。

HTTP协议与HTTPS协议区别

  • HTTPS协议需要拿到CA证书,一般免费证书较少,需要交费;
  • HTTP协议运行在TCP之上,所有传输内容都是铭文,HTTPS运输在SSL/TLS之上,所有传输的内容都济公加密;
  • HTTP默认端口80、HTTPS默认端口443;
  • HTTPS可以有效防止运营商劫持。

TCP/IP四层模型

  • 数据链路层(主机-网络层)物理传输通道,可使用多种传输介质传输,可建立在任何物理传输网上,如光纤、双绞线。

  • 网络层:负责提供基本的数据封包(Packet)传送功能,让每一块数据包都能够到达目的主机(但不检查是否被正确接收),如网际协议(IP)。

  • 传输层:主要任务是向上一层提供可信的端到端(End-to-End)服务,确保“报文”无差错、有序、不丢失、无重复地传输。如传输控制协议(TCP)、用户数据报协议(UDP)等。这一层向高层屏蔽了下层数据通信的细节,是计算机通信最关键的一层。

  • 应用层确定进程间通信的性质,满足用户的需求。如简单电子邮件传输(SMTP)、文件传输协议(FTP)、网络远程访问协议(Telnet)、超文本传输协议HTTP等。

好处是:在分层体系机构中,各层之间是完全独立的,编程只需要关注应用层,而不需用考虑底层的编写及传输规则。


积累、探索,做到每天突破一点点!不焦虑、不浮躁,奥里给!小野s

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 203,362评论 5 477
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,330评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 150,247评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,560评论 1 273
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,580评论 5 365
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,569评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 37,929评论 3 395
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,587评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,840评论 1 297
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,596评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,678评论 1 329
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,366评论 4 318
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,945评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,929评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,165评论 1 259
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 43,271评论 2 349
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,403评论 2 342

推荐阅读更多精彩内容

  • Web 页面的实现 Web 基于 HTTP 协议通信 客户端(Client)的 Web 浏览器从 Web 服务器端...
    毛圈阅读 1,072评论 0 2
  • 本文整理自MIN飞翔博客 [1] 1. 概念 协议是指计算机通信网络中两台计算机之间进行通信所必须共同遵守的规定或...
    HoyaWhite阅读 2,634评论 2 20
  • 1.TCP报头格式 UDP报头格式 TCP报头格式 UDP报头格式 具体的各部分解释看 TCP报文格式详解 - ...
    杰伦哎呦哎呦阅读 2,425评论 0 5
  • http协议有http0.9,http1.0,http1.1和http2三个版本,但是现在浏览器使用的是htt...
    一现_阅读 1,855评论 0 3
  • 职业画布: 已经有、可以有的优势。 自我认识和自我实现 该去什么样的公司、做什么样的事情、拿多少钱,都取决于一个问...
    CoderCurtis阅读 267评论 0 0