网络编程
IP地址作用是标识网络上的某一台设备,网络上的不同设备要进行通信,IP地址不同
ifconfig命令可以查看和设置IP地址,sudo ifconfig 网卡名 新IP
ping检查网络连通性
ping 127.0.0.1 检查本机操作系统网络功能工作是否正常
ping 本机网卡IP地址 检查网卡是否正常工作
ping 远程主机IP/域名 检查与远程主机的连通性
端口是操作系统分配给网络应用程序的编号,用于系统区分应用程序
端口分为知名端口(系统程序使用的端口号)和动态端口(普通程序使用的端口号,从1024到65535,当程序关闭时同时释放所占用的端口号)
HTTP服务默认的端口号为80
ssh服务默认端口号为22
netstat -an|grep “:8080” 查看8080端口的网络连接情况
Lsof -i [tcp/udp]:8080 显示当前系统端口所对应的程序
网络通信的流程是先通过IP地址找到网络中的设备,再通过网络端口号来找到对应的程序端口,然后通过端口把数据传输给对应的应用程序
UDP(user datagram protocol)用户数据报协议,无连接,不可靠的网络传输协议
特点:无连接,资源开销小,传输速度快,每个数据包最大是64K
缺点:传输数据不可靠,容易丢数据包
主要使用在通信质量要求不高的场景
进程:运行的软件或程序
进程间通信:运行的程序间的数据共享
socket(套接字):不同进程间通信的工具,搬运数据,完成不同电脑上进程间的通信,只要与网络相关的程序或软件都能用到socket
UDP网络程序流程:创建udp套接字,发送/接收数据,关闭套接字
在Python中使用socket模块的函数socket创建udp套接字
使用socket的sendto/recvfrom方法发送/接收数据,close方法关闭套接字
字符串通过encode编码成字节码,字节码通过decode解码成为字符串
encode(),decode()可接收参数,其声明为bytes.decode(encoding=“utf-8”,errors=“strict”)encoding指在解码编码过程中使用的编码格式,errors是指错误的处理方案(strict表示严格按照指定的方式编码解码,不成功则抛出异常)
UDP绑定端口号
在程序运行的过程中,端口号不变,重新运行网络程序时,系统默认会随机分配端口号
为了不与其他的网络程序占用同一个端口号,udp的端口号一般不绑定,如果是服务器端程序,则要绑定端口号,socket的bind方法可以给程序的套接字绑定端口号(让操作系统不再默认分配随机端口)
TCP(transmission control protocol,传输控制协议)面向连接的,可靠地,基于字节流的传输层通信协议。tcp 通信需要经过创建连接,数据传送,终止连接三个步骤
TCP采用发送应答机制,超时重传(为了保证不丢包,每个包一个序号,也保证了传送到接收端实体的包的按序接收),错误校验(检测数据在发送端到接收端之间是否有改动),流量控制和阻塞管理(避免主机发送的过快而使接收方来不及完全收下)
优点:可靠,稳定,适合传输大量数据
缺点:传输速度慢,占用系统资源高
TCP应用于对网络通信质量要求高的,如HTTP,HTTPS,FTP等文件传输协议,pop,SMTP等邮件传输的协议,生活中常用的是浏览器,QQ文件传输
TCP客户端是需要被服务的一端,服务器是提供服务的一方
常用方法:
connect用于和服务器程序建立连接
send/receive用于TCP套接字发送或接收数据
listen用于把服务器套接字设置为监听模式(socket创建的套接字默认的属性是主动的)
accept用于等待接收客户端的连接请求
注意:
TCP服务器一般需要绑定端口号,否则客户端找不到这个服务器。客户端使用随机生成的端口号即可
当一个TCP服务端和客户端连接成功后,服务端会有一个新的套接字用来标记这个客户端,单独为这个客户端服务
TCP三次握手:
标志位: SYN表示连接请求,ACK表示确认,FIN表示关闭连接,seq表示报文序号(随机产生),ack表示确认序号(上一次报文序号加1)
TCP四次挥手流程:1,client发送一个FIN,用来关闭client到sever的数据传送。2,sever收到FIN后,发送一个ACK给client,确认序号为收到序号加1
并发:任务数多于CPU核数,通过操作系统的各种任务调度算法,实现多个任务“一起”执行(总有些任务不在执行,因为切换速度相当快),单核CPU是并发执行多任务
并行:任务数小于等于CPU核数,多核CPU上任务可以一起执行
线程:在程序运行过程中,执行程序代码的一个分支。
单线程
多线程:使用多线程,可以完成多任务。只有线程启动,线程才会加入到活动线程列表
线程之间执行时是无序的
主线程会等待所有的子线程结束后才结束,如果需要可以设置守护主线程
多个线程同时对同一个全局变量进行操作,有可能出现资源竞争数据错误的问题
线程同步(一个任务执行完另一个任务才能执行,同一时刻只有一个任务在执行)的方式可以解决资源竞争数据错误问题,但是由多任务变成了单任务,最简单的同步机制是引入互斥锁
互斥锁:对共享数据进行锁定,保证同一时刻只能有一个线程去操作(抢到锁的线程先执行,没抢到锁的线程需等待锁用完后需要释放,具体哪个线程先抢到由CPU调度决定)
互斥锁为资源引入一个状态:锁定/非锁定
threading模块中定义了lock变量,这个变量本质上是个函数,可以方便的处理锁定:
创建锁: mutex = threading.lock()
锁定:mutex.acquire() 锁定后进入locked状态
释放:mutex.release() 释放后进入unlocked状态
锁好处:保证了某段关键代码只能由一个线程从头到尾完整的执行
坏处:只能以单线程模式执行,性能降低,容易出现死锁情况
死锁:一直等待对方释放锁的情景,会造成应用的停止响应(在合适的地方释放锁来避免死锁)
进程:是系统进行资源分配的基本单位,每启动一个进程操作系统都要为其分配运行资源,线程是运行程序中的一个执行分支,CPU调度的基本单位
线程是依附在进程中的,没有进程就没有线程,一个进程默认提供一条线程,单进程可以创建多个线程
进程间不共享全局变量
进程池在执行任务时会尽量少创建进程,合理利用现有进程完成多任务,可以减少资源开销
多任务-协程:
迭代:使用for循环遍历取值的过程
可迭代对象:用for循环遍历取值的对象,如列表,元组,字典,集合,range,字符串
判断对象是否可迭代:
from collections import Interable
result = isinstance((3,5),Interable) 判断对象是否为指定类型
自定义可迭代对象:在类里面定义__iter__方法创建的对象
可迭代对象的本质:遍历可迭代对象时其实是获取可迭代对象的迭代器,然后通过迭代器获取对象中的数据
自定义迭代器对象:在类里面定义__iter__和__next__方法创建的对象就是迭代器对象
iter函数:获取可迭代对象的迭代器,会调用可迭代对象身上的__iter__方法
next函数:获取迭代器中下一个值,会调用迭代器对象身上的__next__方法
For循环的本质:
遍历可迭代对象:for item in Iterable 循环的本质是先通过iter()函数获取可迭代对象Iterable的迭代器,然后对获取到的迭代器不断调用next()方法来获取下一个值给item,当遇到StopInteration的异常后循环结束
迭代器的作用:记录当前数据的位置以便获取下一个位置的值
生成器:一类特殊的迭代器,不需要__iter__和__next__方法,使用更加方便,依然可以使用next函数和for循环取值
创建生成器方法1:把一个列表的[]改成():my_generator = (i*2 for I in range(5))
方法2(常用):在def函数中看到yield关键字,那么就是生成器
return和yield区别:
yield:每次启动生成器都会返回一个值,多次启动可以返回多个值,也就是yield可以返回多个值
return:只能返回一次值,代码执行到return语句就停止迭代,抛出停止迭代异常
使用了yield关键字的函数不再是函数,而是生成器
代码执行到yield会暂停,然后把结果返回出去,下次启动生成器会在暂停的位置继续往下执行
send方法启动生成器时可以传参数,第一次启动生成器用send方法时,参数只能传入none,一般第一次启动生成器时用next方法
协程:又称微线程,用户级线程,在单线程的情况下完成多任务,多个任务按照一定顺序交替执行(def中只要看到yield关键字就是协程)
协程也是实现多任务的一种方式
为了更好地用协程来完成多任务,Python中greenlet模块对其封装,使切换任务变简单,需人工切换
gevent是一个比greenlet更强大能自动切换任务的第三方库
进程,线程,协程对比:
一个进程至少有一个线程,也可以有多个线程(内核调度)
一个线程里可以有多个协程(用户调度)
进程是资源分配的单位
线程是操作系统调度的单位
进程切换需要的资源最大,效率很低
协程切换任务资源很小,效率高
多进程,多线程根据CPU核数不同可能是并行的,但协程在一个线程中,所以是并发
进程,线程,协程都是可以完成多任务的,可根据自己实际开发需要选择使用
由于线程,协程需要的资源最少,所以使用线程,协程的几率最大
浏览器访问服务器工作流程:(请求和响应的过程)
1.用户输入网址
2.浏览器请求DNS服务器,获取域名对应的IP
3.请求连接该IP地址服务器
4.发送资源请求(HTTP协议)
5.web服务器接受到请求,并解析请求,判断用户意图
6.获取用户想要的资源
7.将资源返回给web服务器
8.web服务器程序将资源(html代码)数据通过网络(HTTP协议)发送给浏览器
9.浏览器解析请求的数据并完成网页数据显示
网址:URL(uniform resource location网络资源地址):请求资源在网络中的地址
三部分:协议部分,域名部分,资源路径部分
域名是一串用点分隔开的名称,用来标识计算机的位置,是唯一的,DNS服务器存储着域名和IP地址的对应关系
HTTP协议(hypertext transfer protocol),浏览器和web服务器传输数据格式的协议,应用层协议,基于TCP协议,是万维网数据通信的基础
网络传输-TCP/IP四层模型:是一系列(几百种)网络协议的总称,目的是保证计算机间可以按照一定的格式进行数据通信
TCP/IP四层模型从上到下:
1.应用层HTTP FTP:负责处理特定的应用程序细节
2.传输层TCP UDP: 主要为两台主机上的应用提供端到端的通信
3.网络层IP:处理分组在网络中的活动,如分组的选路
4.数据链路层/网络接口层:包括操作系统中的设备驱动程序,计算机中对应的网络接口卡
Chrome开发者工具:
元素elements:查看或修改HTML。CSS元素的属性,监听事件,断点
控制台console:执行一次性代码,查看JS对象,查看调试日志信息或异常信息
源代码sources:查看JS,CSS,HTML源代码,可调试JS,设断点
网络network:查看header等与网络连接相关的信息
network中的每一项就是一次请求/响应过程,点击每一项,可查看本次请求响应的报文信息
HTTP请求报文的格式:
1.请求行 GET / HTTP/1.1 请求方法 请求的资源路径 HTTP协议的版本
2.请求头:
Host:浏览器要请求的主机地址
connection:浏览器与服务器间的连接方式
user-agent:用户代理,浏览器告诉服务器自己的身份,如浏览器版本,使用的操作系统版本,通过该项可知道客户端是否为爬虫程序
accept:浏览器告诉服务器自己能接收并识别的文件类型
accept-encoding:浏览器能处理的压缩方式,网页数据量大时,压缩可以提高传输速率,提高用户体验
accept-language:浏览器可以接收的文本语言
3.空行(\r\n)
4.请求体(可选):post请求有请求体信息
HTTP响应报文协议分析:
1.响应行:HTTP/1.1 200 OK
响应状态码:302 重定向,浏览器会根据location的值重新请求页面。404 访问的URL不存在。500 服务器内部错误,无法完成对请求的处理
2.响应头:content-type表示响应内容的文本格式和编码方式
3.空行(\r\n)
4.响应体:
连接方式:
短连接:http/1.0默认使用,连接建立成功后,一次请求和响应完成后连接就会断开(三次握手连接,四次挥手断开),每次发送请求前需要先建立好连接
长连接:http/1.1默认使用,保持连接性,响应头中加入connection:keep-alive ,连接建立成功后,可以发送多次请求和响应,等双方不再进行通信时,服务器做断开连接的操作
长连接减少了用户等待的时间,提升了访问速度,但增加了服务端资源开销
短连接不会占用服务端过多资源,但增加了用户等待时间,减慢了访问速度