去年写私有栈的时候,就想分享出一个关于公有栈的分析,奈何中间一些琐事打断。现在重新拾起来,写一些内容,分享出来,很多技术本来没有那么难,但是越来越多的命名就显得越来越复杂!毕竟不命名点东西,就显得没有那么高大上了!我希望的是,更多人能以大白话的方式明白更多的道理。比如:http协议没有那么神秘!
三次握手、四次挥手不多说了,基于tcp的!如果不明白,可以看TcpClient这篇文章!这个东西没有那么困难。主要是什么呢。都是人为定义的,并不是定理,只要了解制定的规范就能整明白,哪怕就是对计算机一窍不通的,看看也就得了!
背景:分别抓取了get、post、file流的http请求数据!
一、Post分析:
选取一个流的完整过程
前面几个没有什么特别需要说的,就是同步报文段、确认报文段等。
对于每个报文里面所包含的物理层、数据链路层、网络协议、传输控制层对应每个字节所表示的意义,可以参考我的另一篇文章TcpClient. ,
我就不再重复解析。只针对要点信息解析。
所以,根据以上进行了三次握手同步、确认同步、确认之后,接下来就是http的超文本传输协议了。
对于前四层是什么,我在 TcpClient.
里面也有讲,主要是一些源与目标机器之间的信息确认、报文段的标记等tcp相关的内容。
我们主要还是要看超文本传输协议:Hypertext Transfer Protocol。标记处蓝色的内容即超文本传输协议的内容。
1、开头即为请求类型,那么说明这个请求类型是比较关键的,跟平时的认知也是相关的,然后看红框的内容,16进制的20表示一个空格,也就是说:http协议中以 20空格作为分隔符(不是160空格)。
Post:50 4f 53 54
空格:20
2、紧跟在其后的是访问的url,同上也是以20空格作为分隔的。
Url:2f 61 70 69 2f 73 65 61 72 63 68 2f 72 65 70 6f 72 74 2f 65 6d 70 74 79 77 6f 72 64 73 2f
空格:20
3、http协议版本。这里有些不一样了,使用0d 0a作为分隔符,0d 0a查找16进制转换符号可以知道,分别表示的是“回车” 与 “换行”。
Request version:48 54 54 50 2f 31 2e 31
回车换行符:0d 0a
4、携带内容的数据类型Content-type,任然是0d 0a分隔符。
Content-Type:43 6f 6e 74 65 6e 74 2d 54 79 70 65 3a 20 61 70 70 6c 69 63 61 74 69 6f 6e 2f 6a 73 6f 6e
回车换行符:0d 0a
5、同样 user-agent,这个是携带客户信息的字段,比如告知的是什么样的浏览器,操作系统等。
User-Agent:55 73 65 72 2d 41 67 65 6e 74 3a 20 50 6f 73 74 6d 61 6e 52 75 6e 74 69 6d 65 2f 37 2e 31 36 2e 33 0d 0a
回车换行符:0d 0a
6、accept,表示response的时候,接收的是什么样的数据,这里明显 “*” 表示接收所有的数据。
Accept:41 63 63 65 70 74 3a 20 2a 2f 2a
回车换行符:0d 0a
7、用于针对request、response的缓存机制,具体内容可以自行百科,针对这里,
明显是说request请求no-cache,也就是每次都重新请求Cache-control
Cache-Control:43 61 63 68 65 2d 43 6f 6e 74 72 6f 6c 3a 20 6e 6f 2d 63 61 63 68 65
回车换行符:0d 0a
8、postman-token大概跟session类似的吧,反正都是字节流,自己篡改就好了。
9、host:
Host:48 6f 73 74 3a 20 31 30 2e 34 2e 34 30 2e 31 36 38 3a 38 38 30 36
回车换行符:0d 0a
10、Accept-Encoding:这是要声明浏览器的接收的压缩编码类型,这里是可以接受gzip、deflat的压缩类型。
Accept-Encoding:41 63 63 65 70 74 2d 45 6e 63 6f 64 69 6e 67 3a 20 67 7a 69 70 2c 20 64 65 66 6c 61 74 65
回车换行符:0d 0a
11、Content-Length:这个很明显就是请求的内容的长度,这里写的是62字节
Content-Length:43 6f 6e 74 65 6e 74 2d 4c 65 6e 67 74 68 3a 20 36 32
回车换行符:0d 0a
12、Connection:keep-alive,很明显长链接。
Connection:43 6f 6e 6e 65 63 74 69 6f 6e 3a 20 6b 65 65 70 2d 61 6c 69 76 65
0d 0a 0d 0a
回车换行符:0d 0a
标红处,有连续两个0d、0a,这个大概表示到头了吧,接下来就是结构体了。
接下来获取62个字节的内容,就是传输的信息
然后按照Content-Type进行编解码,日入这里是application/json,那么就是要把这些个流,解析成json格式。
二、Get分析
同理,比如cookie,即在12之前的位置上写入cookie:key=value这样的形式。
此外,还有Upgrade-Insecure-Requests、Accept-Language、If-None-Match等,都是以这样的形式产生的,如下是某个Get请求:
这样的组合起来就是超文本协议了,注意,这是协议。
三、文件流分析
此图是一个excel的文件请求流信息,关键信息在这里,标记了一些文件类型,也就是可以接受的文件类型是这样的
接下来是文件信息传输:
此时已经不是http的超文本传输协议了,而是高可靠的tcp传输协议,我们已经看不到对应的http信息投了,而是一些包含信息。用于client端解析接下来的输入流的。
超过了1514,发生了mtu分片,紧接着可能会有多个分片的报文信息,到达客户端之后,组合成一个文件输出流。
文件流传输完成后,会告知结尾
产生如此一个http协议通知,然后服务端等待客户端确认完成。只有60字节,去掉tcp头部等信息,仅剩下几个字节(20~40),说明就是通知用的。
后记,所以大家有没有发现:
一、http协议的格式很容易,分隔符也很容易,即“空格”与“回车换行”。然后最终还是基于tcp进行数据的push推送;
二、http携带的内容信息,很大部分不是我所需要的。咱们可以看一个比例,以第一个post请求为例,最终到达客户端时,我能用到的信息仅有62字节,但是总体却传输了3376字节,去掉tcp头部信息那么也有3260字节,有效数据利用率为
62 /3314 ~=0.018 ;
如果看过私有栈,那么会发现私有栈的头部信息,仅有25以内的字节,以dubbo为例,当时我看的那个版本的头部信息仅有22字节。像蚂蚁的sofa,京东的jcf,58的scf(14字节)估计也仅20字节以内。然后搭配私有的编解码方式,利用率比http协议高很多倍是肯定的了,大概是几十倍吧。
也许会说,如果我一个http信息发送的数据量大了,再加上未来网速越来越快,带宽不是问题?!比例会慢慢与私有栈持平,但是要知道,即使带宽不是问题,那么他的处理方式还是顺序处理的;另外,如果一个集群达到一定程度,即使是很小一部分的性能也要尽量压榨,因为一点的消耗,就能引起很大的不同。关键是看量级。
技术的使用方式上,主要还是要看应用场景,选择适合的才是最好的。技术的提升也是要慢慢迭代的。
所以,知道了这些,同学你是不是可以写一个Servlet了!