在学习网络编程之前还有许多的知识需要普及。socket就是很重要的一环。今天来看一看套接字。
1.服务器端与客户端
BS架构 (腾讯通软件:server+client)
CS架构 (web网站)
C/S架构与socket的关系:
我们学习socket就是为了完成C/S架构的开发
2.OSI七层模型
互联网协议按照功能不同分为osi七层或tcp/ip五层或tcp/ip四层
每层运行常见物理设备
详细参考:
http://www.cnblogs.com/linhaifeng/articles/5937962.html#_label4
学习socket一定要先学习互联网协议:
1.首先:本节课程的目标就是教会你如何基于socket编程,来开发一款自己的C/S架构软件
2.其次:C/S架构的软件(软件属于应用层)是基于网络进行通信的
3.然后:网络的核心即一堆协议,协议即标准,你想开发一款基于网络通信的软件,就必须遵循这些标准。
4.最后:就让我们从这些标准开始研究,开启我们的socket编程之旅
TCP/IP协议族包括运输层、网络层、链路层。
3.socket层
Socket是介于应用层和传输层之间。
4.socket是什么
Socket是应用层与TCP/IP协议族通信的中间软件抽象层,它是一组接口。在设计模式中,Socket其实就是一个门面模式,它把复杂的TCP/IP协议族隐藏在Socket接口后面,对用户来说,一组简单的接口就是全部,让Socket去组织数据,以符合指定的协议。
所以,我们无需深入理解tcp/udp协议,socket已经为我们封装好了,我们只需要遵循socket的规定去编程,写出的程序自然就是遵循tcp/udp标准的。
扫盲篇:
1 将socket说成ip+port,ip是用来标识互联网中的一台主机的位置,而port是用来标识这台机器上的一个应用程序,ip地址是配置到网卡上的,而port是应用程序开启的,ip与port的绑定就标识了互联网中独一无二的一个应用程序
2
3 而程序的pid是同一台机器上不同进程或者线程的标识(Google Chrome会有多个PID)
5.套接字的发展历程
套接字起源于 20 世纪 70 年代加利福尼亚大学伯克利分校版本的 Unix,即人们所说的 BSD Unix。 因此,有时人们也把套接字称为“伯克利套接字”或“BSD 套接字”。一开始,套接字被设计用在同 一台主机上多个应用程序之间的通讯。这也被称进程间通讯,或 IPC。套接字有两种(或者称为有两个种族),分别是基于文件型的和基于网络型的。
1、基于文件类型的套接字家族
套接字家族的名字:AF_UNIX
unix一切皆文件,基于文件的套接字调用的就是底层的文件系统来取数据,两个套接字进程运行在同一机器,可以通过访问同一个文件系统间接完成通信
2、基于网络类型的套接字家族
套接字家族的名字:AF_INET
(还有AF_INET6被用于ipv6,还有一些其他的地址家族,不过,他们要么是只用于某个平台,要么就是已经被废弃,或者是很少被使用,或者是根本没有实现,所有地址家族中,AF_INET是使用最广泛的一个,python支持很多种地址家族,但是由于我们只关心网络编程,所以大部分时候我么只使用AF_INET)
6.套接字的工作流程
生活中的场景,你要打电话给一个朋友,先拨号,朋友听到电话铃声后提起电话,这时你和你的朋友就建立起了连接,就可以讲话了。等交流结束,挂断电话结束此次交谈。
生活中的场景就解释了这工作原理,也许TCP/IP协议族就是诞生于生活中,这也不一定。
先从服务器端说起。服务器端先初始化Socket,然后与端口绑定(bind),对端口进行监听(listen),调用accept阻塞,等待客户端连接。在这时如果有个客户端初始化一个Socket,然后连接服务器(connect),如果连接成功,这时客户端与服务器端的连接就建立了。客户端发送数据请求,服务器端接收请求并处理请求,然后把回应数据发送给客户端,客户端读取数据,最后关闭连接,一次交互结束。
一、socket模块发送和接收消息
示例:模拟发送消息和接收消息的过程
tcp服务端(server)
1#!/usr/bin/env python 2# -*- coding:utf-8 -*- 3 4import socket 5 6phone=socket.socket(socket.AF_INET,socket.SOCK_STREAM)#买手机 7phone.bind(('127.0.0.1',8000))#绑定手机卡 #改成服务端网卡IP地址和端口 8phone.listen(5)#开机 5的作用是最大挂起连接数 #backlog连接池(也叫半链接) 9print('------------->')10conn,addr=phone.accept()#等电话1112msg=conn.recv(1024)#收消息13print('客户端发来的消息是:',msg)14conn.send(msg.upper())#发消息1516conn.close()17phone.close()
执行结果:
1 ------------->
tcp客户端(client)
1#!/usr/bin/env python 2# -*- coding:utf-8 -*- 3 4import socket 5 6phone=socket.socket(socket.AF_INET,socket.SOCK_STREAM) 7 8phone.connect(('127.0.0.1',8000))#拔通电话 #改成服务端网卡IP地址和端口 910phone.send('hello'.encode('utf-8'))#发消息11data=phone.recv(1024)12print('收到服务端的发来的消息: ',data)1314phone.close()
执行结果:
1 收到服务端的发来的消息: b'HELLO'
二、功能介绍
① server = socket.socket()
1参数一:地址簇 2 3 socket.AF_INET IPv4(默认) 4 socket.AF_INET6 IPv6 5 6 socket.AF_UNIX 只能够用于单一的Unix系统进程间通信 7 8参数二:类型 910socket.SOCK_STREAM 流式socket ,for TCP (默认)11socket.SOCK_DGRAM 数据报式socket ,for UDP1213 socket.SOCK_RAW 原始套接字,普通的套接字无法处理ICMP、IGMP等网络报文,而SOCK_RAW可以;其次,SOCK_RAW也可以处理特殊的IPv4报文;此外,利用原始套接字,可以通过IP_HDRINCL套接字选项由用户构造IP头。14 socket.SOCK_RDM 是一种可靠的UDP形式,即保证交付数据报但不保证顺序。SOCK_RAM用来提供对原始协议的低级访问,在需要执行某些特殊操作时使用,如发送ICMP报文。SOCK_RAM通常仅限于高级用户或管理员运行的程序使用。15 socket.SOCK_SEQPACKET 可靠的连续数据包服务1617参数三:协议18 (默认)与特定的地址家族相关的协议,如果是 0 ,则系统就会根据地址格式和套接类别,自动选择一个合适的协议1920详情
1# 服务端 2import socket 3ip_port = ('127.0.0.1',9999) 4sk = socket.socket(socket.AF_INET,socket.SOCK_DGRAM,0) 5sk.bind(ip_port) 6 7while True: 8data,(host,port) = sk.recvfrom(1024) 9print(data,host,port)10sk.sendto(bytes('ok', encoding='utf-8'), (host,port))111213#客户端14import socket15ip_port = ('127.0.0.1',9999)1617sk = socket.socket(socket.AF_INET,socket.SOCK_DGRAM,0)18while True:19inp = input('数据:').strip()20ifinp =='exit':21break22sk.sendto(bytes(inp, encoding='utf-8'),ip_port)23data = sk.recvfrom(1024)24print(data)2526sk.close()2728UDP Demo
②server.bind(address)
server.bind(address) 将套接字绑定到地址。address地址的格式取决于地址族。在AF_INET下,以元组(host,port)的形式表示地址
③server.listen(backlog)
开始监听传入连接。backlog指定在拒绝连接之前,可以挂起的最大连接数量。backlog等于5,表示内核已经接到了连接请求,但服务器还没有调用accept进行处理的连接个数最大为5,这个值不能无限大,因为要在内核中维护连接队列
④server.setblocking(bool)
是否阻塞(默认True),如果设置False,那么accept和recv时一旦无数据,则报错
⑤conn,addr =server.accept()
接受连接并返回(conn,address),其中conn是新的套接字对象,可以用来接收和发送数据。address是连接客户端的地址。接收TCP 客户的连接(阻塞式)等待连接的到来
⑥ client.connect(address)
连接到address处的套接字。一般,address的格式为元组(hostname,port),如果连接出错,返回socket.error错误。
⑦client.connect_ex(address)
同上,只不过会有返回值,连接成功时返回 0 ,连接失败时候返回编码,例如:10061
⑧client.close()
关闭套接字
⑨client.recv(bufsize[,flag])
接受套接字的数据。数据以字符串形式返回,bufsize指定最多可以接收的数量。flag提供有关消息的其他信息,通常可以忽略
⑩client.recvfrom(bufsize[.flag])
与recv()类似,但返回值是(data,address)。其中data是包含接收数据的字符串,address是发送数据的套接字地址
⑪server.send(string[,flag])
将string中的数据发送到连接的套接字。返回值是要发送的字节数量,该数量可能小于string的字节大小。即:可能未将指定内容全部发送
⑫server.sendall(string[,flag])
将string中的数据发送到连接的套接字,但在返回之前会尝试发送所有数据。成功返回None,失败则抛出异常;
内部通过递归调用send,将所有内容发送出去
⑬server.sendto(string[,flag],address)
将数据发送到套接字,address是形式为(ipaddr,port)的元组,指定远程地址。返回值是发送的字节数。该函数主要用于UDP协议
⑭sk.settimeout(timeout)
设置套接字操作的超时期,timeout是一个浮点数,单位是秒。值为None表示没有超时期。一般,超时期应该在刚创建套接字时设置,因为它们可能用于连接的操作(如 client 连接最多等待5s )
⑮sk.getpeername()
返回连接套接字的远程地址。返回值通常是元组(ipaddr,port)
⑯sk.getsockname()
返回套接字自己的地址。通常是一个元组(ipaddr,port)
⑰sk.fileno()
套接字的文件描述符
三、ssh程序
整合下上面的代码,做个ssh连接的客户端,实现基本xshell功能
7.粘包
须知:只有TCP有粘包现象,UDP永远不会粘包。(原因详见第3点)
1、socket收发消息的原理
socket发送原理图
2、为什么会出现所谓的粘包
原因:接收方不知道消息之间的界限,不知道一次性提取多少字节的数据所造成的。
此外,发送方引起的粘包是由TCP协议本身造成的,TCP为提高传输效率,发送方往往要收集到足够多的数据后才发送一个TCP段。若连续几次需要send的数据都很少,通常TCP会根据优化算法把这些数据合成一个TCP段后一次发送出去,这样接收方就收到了粘包数据。
TCP(transport control protocol,传输控制协议)是面向连接的,面向流的,提供高可靠性服务。收发两端(客户端和服务器端)都要有一一成对的socket,因此,发送端为了将多个发往接收端的包,更有效的发到对方,使用了优化方法(Nagle算法),将多次间隔较小且数据量小的数据,合并成一个大的数据块,然后进行封包。这样,接收端,就难于分辨出来了,必须提供科学的拆包机制。 即面向流的通信是无消息保护边界的。
UDP(user datagram protocol,用户数据报协议)是无连接的,面向消息的,提供高效率服务。不会使用块的合并优化算法,, 由于UDP支持的是一对多的模式,所以接收端的skbuff(套接字缓冲区)采用了链式结构来记录每一个到达的UDP包,在每个UDP包中就有了消息头(消息来源地址,端口等信息),这样,对于接收端来说,就容易进行区分处理了。即面向消息的通信是有消息保护边界的。
tcp是基于数据流的,于是收发的消息不能为空,这就需要在客户端和服务端都添加空消息的处理机制,防止程序卡住,而udp是基于数据报的,即便是你输入的是空内容(直接回车),那也不是空消息,udp协议会帮你封装上消息头。
3、tcp会发生粘包的两种情况如下:
1、发送端多次send间隔较短,并且数据量较小,tcp会通过Nagls算法,封装成一个包,发送到接收端,接收端不知道这个包由几部分组成,所以就会产生粘包。
2、数据量发送的大,接收端接收的小,再接一次,还会出现上次没有接收完成的数据。就会出现粘包。