网络编程和通信基础总结

网络编程

IP地址作用是标识网络上的某一台设备，网络上的不同设备要进行通信，IP地址不同

ifconfig命令可以查看和设置IP地址，sudo ifconfig 网卡名新IP

ping检查网络连通性

ping 127.0.0.1 检查本机操作系统网络功能工作是否正常

ping 本机网卡IP地址检查网卡是否正常工作

ping 远程主机IP/域名检查与远程主机的连通性

端口是操作系统分配给网络应用程序的编号，用于系统区分应用程序

端口分为知名端口（系统程序使用的端口号）和动态端口（普通程序使用的端口号，从1024到65535，当程序关闭时同时释放所占用的端口号）

HTTP服务默认的端口号为80

ssh服务默认端口号为22

netstat -an|grep “:8080” 查看8080端口的网络连接情况

Lsof -i [tcp/udp]:8080 显示当前系统端口所对应的程序

网络通信的流程是先通过IP地址找到网络中的设备，再通过网络端口号来找到对应的程序端口，然后通过端口把数据传输给对应的应用程序

UDP（user datagram protocol）用户数据报协议，无连接，不可靠的网络传输协议

特点：无连接，资源开销小，传输速度快，每个数据包最大是64K

缺点：传输数据不可靠，容易丢数据包

主要使用在通信质量要求不高的场景

进程：运行的软件或程序

进程间通信：运行的程序间的数据共享

socket（套接字）：不同进程间通信的工具，搬运数据，完成不同电脑上进程间的通信，只要与网络相关的程序或软件都能用到socket

UDP网络程序流程：创建udp套接字，发送/接收数据，关闭套接字

在Python中使用socket模块的函数socket创建udp套接字

使用socket的sendto/recvfrom方法发送/接收数据，close方法关闭套接字

字符串通过encode编码成字节码，字节码通过decode解码成为字符串

encode(),decode()可接收参数，其声明为bytes.decode(encoding=“utf-8”,errors=“strict”)encoding指在解码编码过程中使用的编码格式，errors是指错误的处理方案（strict表示严格按照指定的方式编码解码，不成功则抛出异常）

UDP绑定端口号

在程序运行的过程中，端口号不变，重新运行网络程序时，系统默认会随机分配端口号

为了不与其他的网络程序占用同一个端口号，udp的端口号一般不绑定，如果是服务器端程序，则要绑定端口号，socket的bind方法可以给程序的套接字绑定端口号（让操作系统不再默认分配随机端口）

TCP（transmission control protocol，传输控制协议）面向连接的，可靠地，基于字节流的传输层通信协议。tcp 通信需要经过创建连接，数据传送，终止连接三个步骤

TCP采用发送应答机制，超时重传（为了保证不丢包，每个包一个序号，也保证了传送到接收端实体的包的按序接收），错误校验（检测数据在发送端到接收端之间是否有改动），流量控制和阻塞管理（避免主机发送的过快而使接收方来不及完全收下）

优点：可靠，稳定，适合传输大量数据

缺点：传输速度慢，占用系统资源高

TCP应用于对网络通信质量要求高的，如HTTP，HTTPS，FTP等文件传输协议，pop，SMTP等邮件传输的协议，生活中常用的是浏览器，QQ文件传输

TCP客户端是需要被服务的一端，服务器是提供服务的一方

常用方法：

connect用于和服务器程序建立连接

send/receive用于TCP套接字发送或接收数据

listen用于把服务器套接字设置为监听模式（socket创建的套接字默认的属性是主动的）

accept用于等待接收客户端的连接请求

注意：

TCP服务器一般需要绑定端口号，否则客户端找不到这个服务器。客户端使用随机生成的端口号即可

当一个TCP服务端和客户端连接成功后，服务端会有一个新的套接字用来标记这个客户端，单独为这个客户端服务

TCP三次握手：

标志位： SYN表示连接请求，ACK表示确认，FIN表示关闭连接，seq表示报文序号（随机产生），ack表示确认序号（上一次报文序号加1）

TCP四次挥手流程：1，client发送一个FIN，用来关闭client到sever的数据传送。2，sever收到FIN后，发送一个ACK给client，确认序号为收到序号加1

并发：任务数多于CPU核数，通过操作系统的各种任务调度算法，实现多个任务“一起”执行（总有些任务不在执行，因为切换速度相当快），单核CPU是并发执行多任务

并行：任务数小于等于CPU核数，多核CPU上任务可以一起执行

线程：在程序运行过程中，执行程序代码的一个分支。

单线程

多线程：使用多线程，可以完成多任务。只有线程启动，线程才会加入到活动线程列表

线程之间执行时是无序的

主线程会等待所有的子线程结束后才结束，如果需要可以设置守护主线程

多个线程同时对同一个全局变量进行操作，有可能出现资源竞争数据错误的问题

线程同步（一个任务执行完另一个任务才能执行，同一时刻只有一个任务在执行）的方式可以解决资源竞争数据错误问题，但是由多任务变成了单任务，最简单的同步机制是引入互斥锁

互斥锁：对共享数据进行锁定，保证同一时刻只能有一个线程去操作（抢到锁的线程先执行，没抢到锁的线程需等待锁用完后需要释放，具体哪个线程先抢到由CPU调度决定）

互斥锁为资源引入一个状态：锁定/非锁定

threading模块中定义了lock变量，这个变量本质上是个函数，可以方便的处理锁定：

创建锁： mutex = threading.lock()

锁定：mutex.acquire() 锁定后进入locked状态

释放：mutex.release() 释放后进入unlocked状态

锁好处：保证了某段关键代码只能由一个线程从头到尾完整的执行

坏处：只能以单线程模式执行，性能降低，容易出现死锁情况

死锁：一直等待对方释放锁的情景，会造成应用的停止响应（在合适的地方释放锁来避免死锁）

进程：是系统进行资源分配的基本单位，每启动一个进程操作系统都要为其分配运行资源，线程是运行程序中的一个执行分支，CPU调度的基本单位

线程是依附在进程中的，没有进程就没有线程，一个进程默认提供一条线程，单进程可以创建多个线程

进程间不共享全局变量

进程池在执行任务时会尽量少创建进程，合理利用现有进程完成多任务，可以减少资源开销

多任务-协程：

迭代：使用for循环遍历取值的过程

可迭代对象：用for循环遍历取值的对象，如列表，元组，字典，集合，range，字符串

判断对象是否可迭代：

from collections import Interable

result = isinstance((3,5),Interable) 判断对象是否为指定类型

自定义可迭代对象：在类里面定义__iter__方法创建的对象

可迭代对象的本质：遍历可迭代对象时其实是获取可迭代对象的迭代器，然后通过迭代器获取对象中的数据

自定义迭代器对象：在类里面定义__iter__和__next__方法创建的对象就是迭代器对象

iter函数：获取可迭代对象的迭代器，会调用可迭代对象身上的__iter__方法

next函数：获取迭代器中下一个值，会调用迭代器对象身上的__next__方法

For循环的本质：

遍历可迭代对象：for item in Iterable 循环的本质是先通过iter()函数获取可迭代对象Iterable的迭代器，然后对获取到的迭代器不断调用next()方法来获取下一个值给item，当遇到StopInteration的异常后循环结束

迭代器的作用：记录当前数据的位置以便获取下一个位置的值

生成器：一类特殊的迭代器，不需要__iter__和__next__方法，使用更加方便，依然可以使用next函数和for循环取值

创建生成器方法1：把一个列表的[]改成（）：my_generator = (i*2 for I in range(5))

方法2（常用）：在def函数中看到yield关键字，那么就是生成器

return和yield区别：

yield：每次启动生成器都会返回一个值，多次启动可以返回多个值，也就是yield可以返回多个值

return：只能返回一次值，代码执行到return语句就停止迭代，抛出停止迭代异常

使用了yield关键字的函数不再是函数，而是生成器

代码执行到yield会暂停，然后把结果返回出去，下次启动生成器会在暂停的位置继续往下执行

send方法启动生成器时可以传参数，第一次启动生成器用send方法时，参数只能传入none，一般第一次启动生成器时用next方法

协程：又称微线程，用户级线程，在单线程的情况下完成多任务，多个任务按照一定顺序交替执行（def中只要看到yield关键字就是协程）

协程也是实现多任务的一种方式

为了更好地用协程来完成多任务，Python中greenlet模块对其封装，使切换任务变简单，需人工切换

gevent是一个比greenlet更强大能自动切换任务的第三方库

进程，线程，协程对比：

一个进程至少有一个线程，也可以有多个线程（内核调度）

一个线程里可以有多个协程（用户调度）

进程是资源分配的单位

线程是操作系统调度的单位

进程切换需要的资源最大，效率很低

协程切换任务资源很小，效率高

多进程，多线程根据CPU核数不同可能是并行的，但协程在一个线程中，所以是并发

进程，线程，协程都是可以完成多任务的，可根据自己实际开发需要选择使用

由于线程，协程需要的资源最少，所以使用线程，协程的几率最大

浏览器访问服务器工作流程：（请求和响应的过程）

1.用户输入网址

2.浏览器请求DNS服务器，获取域名对应的IP

3.请求连接该IP地址服务器

4.发送资源请求（HTTP协议）

5.web服务器接受到请求，并解析请求，判断用户意图

6.获取用户想要的资源

7.将资源返回给web服务器

8.web服务器程序将资源（html代码）数据通过网络（HTTP协议）发送给浏览器

9.浏览器解析请求的数据并完成网页数据显示

网址：URL（uniform resource location网络资源地址）：请求资源在网络中的地址

三部分：协议部分，域名部分，资源路径部分

域名是一串用点分隔开的名称，用来标识计算机的位置，是唯一的，DNS服务器存储着域名和IP地址的对应关系

HTTP协议（hypertext transfer protocol），浏览器和web服务器传输数据格式的协议，应用层协议，基于TCP协议，是万维网数据通信的基础

网络传输-TCP/IP四层模型：是一系列（几百种）网络协议的总称，目的是保证计算机间可以按照一定的格式进行数据通信

TCP/IP四层模型从上到下：

1.应用层HTTP FTP：负责处理特定的应用程序细节

2.传输层TCP UDP: 主要为两台主机上的应用提供端到端的通信

3.网络层IP：处理分组在网络中的活动，如分组的选路

4.数据链路层/网络接口层：包括操作系统中的设备驱动程序，计算机中对应的网络接口卡

Chrome开发者工具：

元素elements：查看或修改HTML。CSS元素的属性，监听事件，断点

控制台console：执行一次性代码，查看JS对象，查看调试日志信息或异常信息

源代码sources：查看JS，CSS，HTML源代码，可调试JS，设断点

网络network：查看header等与网络连接相关的信息

network中的每一项就是一次请求/响应过程，点击每一项，可查看本次请求响应的报文信息

HTTP请求报文的格式：

1.请求行 GET / HTTP/1.1 请求方法请求的资源路径 HTTP协议的版本

2.请求头：

Host:浏览器要请求的主机地址

connection：浏览器与服务器间的连接方式

user-agent：用户代理，浏览器告诉服务器自己的身份，如浏览器版本，使用的操作系统版本，通过该项可知道客户端是否为爬虫程序

accept：浏览器告诉服务器自己能接收并识别的文件类型

accept-encoding：浏览器能处理的压缩方式，网页数据量大时，压缩可以提高传输速率，提高用户体验

accept-language：浏览器可以接收的文本语言

3.空行（\r\n）

4.请求体（可选）：post请求有请求体信息

HTTP响应报文协议分析：

1.响应行：HTTP/1.1 200 OK

响应状态码：302 重定向，浏览器会根据location的值重新请求页面。404 访问的URL不存在。500 服务器内部错误，无法完成对请求的处理

2.响应头：content-type表示响应内容的文本格式和编码方式

3.空行（\r\n）

4.响应体：

连接方式：

短连接：http/1.0默认使用，连接建立成功后，一次请求和响应完成后连接就会断开（三次握手连接，四次挥手断开），每次发送请求前需要先建立好连接

长连接：http/1.1默认使用，保持连接性，响应头中加入connection：keep-alive ，连接建立成功后，可以发送多次请求和响应，等双方不再进行通信时，服务器做断开连接的操作

长连接减少了用户等待的时间，提升了访问速度，但增加了服务端资源开销

短连接不会占用服务端过多资源，但增加了用户等待时间，减慢了访问速度

网络编程和通信基础总结

网络编程和通信基础总结

相关阅读更多精彩内容

友情链接更多精彩内容