使用socket进行tcp数据传输的简单过程
Socket是TCP/UDP传输层的API, HTTP是在tcp上的应用层API. 因此HTTP请求离不开底层的socket.
下面是一个常见的socket tcp请求的流程:

- client和server都要创建一个socket对象
-
client.socket需要设置请求server的ip+port, 然后server.socket调用bind方法将server.socket对象绑定到指定的port提供给client请求 - server端需要设置
socket成被动listen状态, 此时服务器就能监听client的connect-- (注意:此时server就能接受client的connect, 只不过由于server没有accept, 所以client.connect方法会阻塞, 并且在server端内核中client的connet请求会进行排队) -
client.socket调用connet并阻塞, 等待server调用accept方法, 在accept方法返回之前,client.connect方法是阻塞的.如果server可以调用accept方法, 会生成一个connfd, 就是server与client通信使用的connfd. 此时客户端的connect返回 - 一旦连接建立, server和client就能互相发送
二进制字节流数据!!! - 当通讯结束, 两者都需要调用
close关闭socket.
由于tcp的socket是一个面向字节流协议, 因此在两个socket之间的数据流是字节流,因此在tcp-socket上层封装的协议都需要自己去实现数据格式的解析.
常见的由使用\r\n换行符作为数据拆分的, 就比如本文涉及的HTTP协议;还有指定前多少个字节的结构, 指定后面body体长度的方式的,比如MQTT协议.
HTTP协议的简单基础
本文讨论的HTTP协议是简单的文本协议, 也就是在建立tcp socket连接以后, 两个connected socket发送和接受的数据都是文本数据!!!
超简洁的实例 ——关于HTTP协议分析 中讲的非常透彻, 有两点需要我们注意:
- HTTP是一个
无状态的协议 - HTTP的request/response的结构, 主要是各种header/body体
虽然HTTP是一个无状态的协议, 但是我们会用Cookie或者Session来扩展HTTP的功能帮助我们记录一些状态, 同时还有一个技术, 比如Connection:keep-alive,http pipelining来帮助优化HTTP的性能.
ps1:
注意:每个Header一行一个,换行符是\r\n. 当连续两个\r\n表示Header部分结束, 后面的数据全部是body. HTTP响应如果包含body,也是通过\r\n\r\n来分隔的。同时body的数据类型是由Content-Type头来决定的,如果是网页, body就是文本, 如果是图片,body就是二进制数据
ps2:
而keep-alive则指的是客户端与服务器之间的 socket 在一次通信结束后并不立即关闭,可以重复使用。但是里边传输的协议消息依旧是无状态的。这么做的主要目的,是为了避免 socket 建立过程的开销。socket 的建立开销是很大的,至少要有三次握手,也就是说三次往返。如果短时间内有大量消息需要传递的话,这个花费是很可观的。除了keep-alive以外为了优化 http 的性能,还有http pipelining 之类的优化方法。这种策略会一次发送多个请求(见下图),为了突出主干就不赘述了。

URL的格式
URL的完整参考是如下:, 其中[]中表示可选
scheme:[//[user:password@]host[:port]][/]path[?query]
协议:[//[用户名:密码@]主机名[:端口号]][/]路径[?查询]
DNS与HTTP
由于在使用HTTP请求时, 一般都使用域名domain在作为URL的host字段, 而在socket建立connect时,需要绑定ip和port, 因此需要DNS系统来帮忙将domain转化成ip进行处理.
下面是一个使用curl进行HTTP请求的完整实例:
➜ ~ curl http://www.baidu.com/ --verbose
* Trying 14.215.177.38...
* TCP_NODELAY set
* Connected to www.baidu.com (14.215.177.38) port 80 (#0)
> GET / HTTP/1.1
> Host: www.baidu.com
> User-Agent: curl/7.58.0
> Accept: */*
>
< HTTP/1.1 200 OK
< Accept-Ranges: bytes
< Cache-Control: private, no-cache, no-store, proxy-revalidate, no-transform
< Connection: keep-alive
< Content-Length: 2381
< Content-Type: text/html
< Date: Sun, 28 Feb 2021 13:26:57 GMT
< Etag: "588604d8-94d"
< Last-Modified: Mon, 23 Jan 2017 13:27:52 GMT
< Pragma: no-cache
< Server: bfe/1.0.8.18
< Set-Cookie: BDORZ=27315; max-age=86400; domain=.baidu.com; path=/
<
<!DOCTYPE html>
<!--STATUS OK--><html> <head><me....
...
我们能看到实际在底层进行socket连接时, 使用的百度的ip地址14.215.177.38. 并且查看了curl的源码以后,知道curl底层使用的getaddrinfo方法使用的LocalDNS将domain->ip.
因此使用domain作为URL.host的HTTP请求的流程是: DNS 解析 -> TCP 连接 -> Request -> Response
TLS与HTTP
在日常使用中, 我们更多的使用的时HTTPS, 也就是 TLS + HTTP协议, 也就是说在tcp-socket基础上, 我们又引入了TLS协议配合HTTP使用.
最终HTTPS的完整流程是: DNS 解析 -> TCP 连接 -> TLS 握手 -> Request -> Response

TLS包含三个基本阶段(完整的握手):
- 对等协商支援的密钥算法
- 基于私钥加密交换公钥,基于PKI证书的身份认证
- 基于公钥加密的数据传输保密
当client和server初次建立TLS握手时(比如浏览器访问HTTPS网站), 双方会建立一个完整的TLS连接!!!
具体的流程如下:

- client像server发送请求
https://www.baidu.com:443/, 然后底层构建的socket会connect, server的443端口. 然后发送client支持的cipher suites以及random number1, 也就是发起握手信息 - server收到connect以后响应握手信息, 返回
random number2和匹配好的加密算法. - server继续给client发送第二个响应报文就是server的
certificate, 内部是对称加密证书中的public key, 还有证书签发机构, 过期时间, 域名信息等. - client收到证书以后, 解析该证书, 进行
evaluate trust certificate.如果证书OK, 那么生成一个随机值(预主秘钥) - client认证证书通过以后, 通过
random1+random2+预主秘钥组装session作为会话秘钥, - client通过证书中的
public key加密会话密钥, 并发送给server - 服务端通过私钥解谜会话秘钥, 得到随机值1、随机值2和预主秘钥,然后组装会话秘钥,跟客户端会话秘钥相同。
- 客户端通过会话秘钥加密一条消息发送给服务端,主要验证服务端是否正常接受客户端加密的消息。
- 同样服务端也会通过会话秘钥加密一条消息回传给客户端,如果客户端能够正常接受的话表明SSL层连接建立完成了.
- 后续的HTTP请求就在这个秘钥的加密下完成通信
SSL/TLS握手过程 中讲的更加详细
参考
自制 HTTP 服务器之 Socket 编程与 HTTP 协议(1)