TCP数据传输一个特点是,协议层在发送数据时不会关心数据形成的逻辑结构,不管上层协议如何组织数据,一旦数据抵达TCP协议层后,他们只会被当做数据流对待。TCP协议层在接收到上层协议传来数据时,它会将数据缓存在内存中,等到合适时机在选取一部分数据发送出去。
这种把数据缓存然后再发送的方式在传输文件时不会有问题,但在需要实时反馈的应用情景下就会出现严重问题。例如Telnet协议,也就是我们常用的远程登录窗口,此时用户希望每输入一个字符,窗口都必须有及时反馈,这就要求下层TCP不能积攒数据,一定要在收到数据后立刻发送出去。为了让TCP实现数据直接发送而不积攒,在TCP包中设置了PSH控制位,当我们把该为设置成1时,数据一旦传到TCP层就会被立即发送出去,这就是所谓TCP协议的“PUSH"功能。
通常情况下,数据会按次序发送,先输送给TCP层的数据会先被发送出去。但有情况下,后面提交给TCP层的数据需要比前面提交给TCP的数据提前发送出去。一个典型例子是,假设双方在相互发送大段文件信息,如果其中一端发现发送了错误的文件内容,那么它就必须赶紧通知对方停止发送和接收。此时如果有很多文件内容已经在TCP层等待,通常情况下通知对方终止接收的消息需要等排在前面的文件数据发送完后才获得发送的机会。
但是如果等到大量文件数据发送给对方后才通知对方内容错误显然会浪费宝贵时间,因此当前通知对方放弃接收的信息必须提前发送,此时我们只要将TCP数据包中的URG控制位设置成1,该数据包就能被TCP层提前发送出去而不要在队列中等待。
TCP协议要保证数据传输的稳定性,一个重要功能是他要能检测到丢包并重发丢失的数据包。前面我们看到,当一方发送出数据后,它必须等待对方回发ACK包才能保证数据被对方正确接收,但由于网络的不可控性,发出的数据有可能对方没有收到,或者对方回发的ACK包在传输过程中丢失,任何一种情况发送时,我们都无法确保数据是否安全发送,因此TCP协议层必须要有处理相关情况的机制。
TCP协议层的基本处理方法是,当一方发送出数据包时就启动一个定时器,当定时器时间片用完后还没有收到对应的ACK包,数据就会重新发送。在具体实现中,TCP会把发送出去的数据放置到一个重传队列中,然后启动时钟,如果在时钟触发前收到了ACK包那么数据就会从队列中拿掉,要不然时钟触发后排在队列中的数据就会再次被发送。
数据被重发时我们也不能保证他一定会被正常接收,因此即使重发后数据还依然保持在重发队列里,同时再次启动对应的重发时钟,只要一直接收不到对应的ACK包,这个过程就会反复进行,当然该过程不会无止境的循环,当重复一定次数后连接就会中断。
我们还需要深入了解TCP协议的回复机制。当一方向对方 发送三个数据包,对方并不是对接收到的三个数据包各自回复一个ACK包,例如A向B发送3个数据包,第一个数据包的seq字段为0,数据长度为100,第二个数据包seq为101,长度为100,第三个数据包seq为201,长度为100,如果对方成功接收3个数据包后,只需要向A发送一个ACK包,其中ack字段设置为301就可以表明对方成功接收了3个数据包。
假设三个数据包发送后,第二个数据包丢失,那么B接收到数据包1和3,但它只能返回一个包含ack字段为101的数据包,它不能对接收到的数据包3发送ack包,因为那样会让A以为B也接收到了数据包2。于是B就一直等待直到A再次将数据包2,3传送过来。然而这种机制会导致数据传递效率变得相当低下。例如服务器向客户端发送20个数据包,第一个数据包丢失但后面19个数据包被成功接收,但此时客户端不能向服务器发送ack包,因为如果发送就会被服务器误以为所有数据包都被成功接收,于是服务器就只能再次发送20个数据包。
面对这种情况TCP协议有多种处理方案。一种是对每个已经发送的数据包设置定时器,服务器只重传超时的数据包,例如在该例子中,由于第一个数据包最早发送因此它也会最早超时,此时服务器再将第一个数据包发送一次,如果这次客户端能成功接收,那么它就可以发送ACK包告诉服务器端数据全部正常接收,这种机制与我们前面描述的机制类似,另一种办法就是一下子全部重传,两种方法没有谁更好一说,协议的实现者可以根据需要自己选取合适的方案。
TCP协议为了处理这种情况,后来特别增添了所谓选择性回复的功能。双方在建立连接进行三次握手时必须协商是否使用该功能。该功能的特点在于回复ACK时数据包不是只包含一个数据,而是包含一个数字队列,队列中的数字对应已经接受到的数据包seq字段。于是服务器就可以知道哪些数据对方接收到,哪些数据包丢失,因此它可以把丢失的数据包重传即可。
TCP协议有太多的细节需要考虑。前面说到数据包一旦发送后,数据会存放在重传队列中,然后启动时钟在超时后将数据包再次发送。然而为了保证数据传输效率,我们必须谨慎选择时钟的长度,如果选得过长,有可能造成很多数据积累在队列中,如果选得过短,数据包发送过于频繁造成网络带宽下降。决定重传时钟长度是一个非常棘手问题,通常情况下重传时钟长度设置为数据在两台设备间一次来回所需要的时间,也称为round-trip-time,简称RTT。显然在实际情况中不存在固定的RTT,由于设备可能位于不同地理位置,数据包要经过很多不同地区不同性质的网络,因此确定数据包在两个设备之间来回所需时间根本不可能。
于是TCP采用一种动态决定重传时间片的机制。它通过不断估算数据包在两个设备中实现一个来回的时间来调整重传时间片。它采用一个小于1的系数a,然后通过如下公式计算时间片:本次重传时间片 = a * 前一次重传时间片 + (1-a)*上一次重传时间片。数据在两台设备间一个来回的时间计算主要依据数据包发送后收到ACK回复包的这段时间。这里又引出一个问题,如果数据发送重传,也就是数据包发送两次后才收到ACK包,那么如何确定这个包是对第二次发送的回应还是对第一次发送的回应?
处理这个问题引出了专门算法叫karn算法。它的基本思路是一开始设定一个重传时间片,如果数据包重传一次后下一次要再重传,它需要等待的时间是上一次的2倍,这种时间翻倍的行为一直重复到数据包收到对应的ACK回复为止。
TCP协议非常繁琐,还有不少细节我们需要掌握,相关内容我们在后续章节再继续介绍。
更多技术信息,包括操作系统,编译器,面试算法,机器学习,人工智能,请关照我的公众号: