独上高楼-HTTP协议(1):从RFC开始

这是一系列文章的开始,工作了这么久,发现很多人对http和web有不少的误解。大家都在希望web交互的更快,使用webGL来充实内容,使用各类hybrid框架来实现一统所有平台的意愿,却很少有人去深刻理解http的诞生、成长。

从90年代开始,http作为web的附庸而逐渐成长,这么多年过去了,http的应用领域已经不仅仅局限在web,各种http的变体充斥在各个角落。在这个技术快速迭代的年代,就越需要理解技术的本质。每个技术从业者应该多问以下问题:

  • 我用的技术会死去吗
  • 更好的技术是什么

放在web领域,也应该问下自己:

  • web和http会死去吗
  • 他们的替代品将是什么

介绍

在1999年的RFC 2616是这样描述http的设计目的:

HTTP has been in use by the World-Wide Web global information initiative since 1990.

http从诞生之初,就已经与万维网有不可割舍的血缘关系。因为当时万维网的特性,形成了我们耳熟能详的特性

  • 请求简单
  • 传输数据灵活
  • 无连接
  • 无状态

近二十年来,HTTP/1.1标准的内涵不挺的外延,甚至需要6个RFC来描述整个HTTP协议,他们是:

  • 消息-"Message Syntax and Routing" (RFC 7230)
  • 语义-"Semantics and Content" [RFC7231]
  • 条件请求-"Conditional Requests" [RFC7232]
  • 范围请求-"Range Requests" [RFC7233]
  • 缓存-"Caching" [RFC7234]
  • 认证-"Authentication" [RFC7235]

http 2.0已经蓬勃兴起, google的QUIC(笑称http 3.0)也在实验阶段,他们可能在安全、传输等方面有较大的优化,但是他们并没有给http赋予新的内涵:

HTTP is a generic interface protocol for information systems. It is designed to hide the details of how a service is implemented by presenting a uniform interface to clients that is independent of the types of resources provided. RFC7230

HTTP是一种通用的信息传递协议。对http来讲,Web世界将只是很少的一部分。

从RFC7230开始

先从几个问题开始:

  1. 什么决定了服务端和客户端

  2. 为什么必须要使用空行隔开headerbody

  3. URI是什么?

实际上,这篇RFC解决了七十多个问题,每一个问题都可以写一篇较长的文章来讲,这里分析一下这三个问题:

message格式决定服务端和客户端

标准规定,如果发出的是 response格式的消息,那么就属于server,反之,就是client

仅仅使用数据格式来决定的地位, 为什么不用tcp特性来决定服务端还是客户端问题?

google使用的QUIC是基于UDP实现的HTTP标准(有一定差异)。这就没有办法来通过请求行为来判断是服务端还是客户端,更重要的是,在web世界,各种代理、网关等充斥在各个角落,客户端和服务端的角色经常发生变化,因此,使用格式来决定地位是一个相对不错的解决方案。

这也就是requestresponse消息头不一样的绝对原因(讲道理,可以设计的一样)。

思考HTTP的时候,希望可以脱离那句话来想象:

HTTP是基于TCP的应用层协议

自定义消息头

常见的请求如下:

GET / HTTP/1.0
User-Agent: Mozilla/5.0 (Macintosh; Intel Mac OS X 10_10_5)
Accept: */*

body

常见回复如下:

HTTP/1.0 200 OK 
Content-Type: text/plain
Content-Length: 137582
Expires: Thu, 05 Dec 1997 16:00:00 GMT
Last-Modified: Wed, 5 August 1996 15:55:28 GMT
Server: Apache 0.84

<html>
  <body>Hello World</body>
</html>

headerbody中间存在一个empty line。这是因为,标准允许服务端或者客户端自定义消息头,为了区分headerbody,标准通过设置空行来进行区分。在某些需求下,你可以将内容写在header区域,防止body内内容被防火墙或者杀毒软件干掉。

为什么不设置固定的header或者body

http在设计之初,就用于传输各种多媒体信息,因此从一开始,headerbody的内容就没办法进行固定。从目前来看,HTTP承载最多的也是各种信息资源的传递。所以,在这个角度:

http传输某种资源不会是最优的方案,但是一定可以传输任意资源

HTTP灵魂: 资源定位

HTTP发明者Tim Berners-Lee有句名言:

Web users ultimately want to get at data quickly and easily. They don't care as much about attractive sites and pretty design.

对于创始人来说:更快的获取数据是web的唯一使命。

使用URI来描述资源,就是能够简化获取资源的步骤。

那么,URI的结构是什么?URI将永远不变吗?

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 组织:中国互动出版网(http://www.china-pub.com/) RFC文档中文翻译计划(http://...
    Palomar阅读 1,609评论 0 6
  • 8. 方法定义(Method Definitions) 通用的HTTP/1.0的方法集将在下面定义,虽然该方法集可...
    Palomar阅读 3,235评论 0 2
  • Web 页面的实现 Web 基于 HTTP 协议通信 客户端(Client)的 Web 浏览器从 Web 服务器端...
    毛圈阅读 1,139评论 0 2
  • RFC 2326RTSP Spec中文版(1-11)RTSP Spec中文版(12-16)RTSP Spec中文版...
    SniperPan阅读 5,756评论 3 10
  • API定义规范 本规范设计基于如下使用场景: 请求频率不是非常高:如果产品的使用周期内请求频率非常高,建议使用双通...
    有涯逐无涯阅读 2,706评论 0 6