今天教大家在Python中从零开始构建Web应用程序及其Web服务器,所有内容完全依赖Python标准库,并且忽略WSGI标准。
Web服务器
第一步是编写能够为网络应用提供支持的HTTP服务器。
首先需要了解HTTP协议的工作方式。简单来说,HTTP客户端通过网络连接到HTTP服务器,并向服务器发送一串数据请求。然后服务器解释该请求并向客户端返回响应。
请求格式
请求由一系列 作为分隔的行组成,其中第一行称为“请求行”。请求行以一个HTTP方法开头,后跟一个空格,后跟被请求的文件路径,后跟一个空格,后跟HTTP协议版本,最后是一个回车符( )和一个换行符( ):
请求行来自若干个标题行之后。每个标题行以标题名称开头,后跟一个冒号,之后跟一个可选值,接着跟 :
标题部分的结尾用空行表示:
最后,请求可能包含一个“主体”,即一个随请求发送到服务器的任意有效负载。
综合起来,就是一个简单的GET请求:
一个简单的POST请求和正文:
响应格式
以请求响应为例,它由一系列 作为分隔的行组成。响应中的第一行称为“状态行”,它以HTTP协议版本开头,后跟一个空格,后跟响应状态码,后跟另一个空格,接着是状态码原因,最后是 :
状态行到达响应头,后跟空行,之后是可选的响应体:
简单的服务器
根据目前对协议的了解,我们需要编写一个服务器,不管输入的请求如何,都输出相同的响应。
首先,创建一个套接字,将它绑定到一个地址,然后开始监听连接。
如果现在尝试运行此代码,它将打印标准输出,在监听127.0.0.1:9000之后退出。为了实际处理传入连接,需要accept在套接字上调用该方法。这样做会阻止进程,直到客户端连接到我们的服务器。
一旦有了与客户端的套接字连接,我们就可以开始与它进行通信。使用sendall方法,发送连接客户端的示例响应:
如果现在运行代码,然后在常用的浏览器中访问http://127.0.0.1:9000,它应该呈现字符串“Hello!”。不过,服务器在发送响应后会退出,导致页面刷新失败。下图代码可以用于解决该问题:
文件的服务器
我们需要扩展HTTP服务器,方便它从磁盘提供文件。
请求抽象化
在此之前,我们需要读取和解析来自客户端的传入请求数据。由于请求数据是由许多行构成的,每个线段都有 字符分隔,所以需要编写一个生成器函数,该函数从套接字读取数据并生成每行代码:
它所做的是尽可能多的从bufsize块中读取数据,将数据连接在一个缓冲区(buff)中并不断将缓冲区分成单独的行,从而一次产生一个。一旦找到空行,它将返回它读取的额外数据。
使用iter_lines,就可以开始打印我们获得的请求:
如果现在运行服务器并访问http://127.0.0.1:9000,应该在控制台中看到以下内容:
接下来通过定义一个Request类来对这些数据进行抽象:
现在,只能了解方法、路径和请求标头。我们留下解析查询字符串参数,以供以后使用。
为了封装构建请求所需的逻辑,我们将添加一个类方法from_socket到Request中:
它使用iter_lines之前定义的函数来读取请求行。将得到method和path,然后读取和分析这些单独的标题行。最后,它构建Request对象并返回。如果将其插入到我们的服务器循环中,如下所示:
现在连接到服务器,如下所示:
因为from_socket在某些情况下可能会引发异常,所以如果现在给出不合法请求,服务器可能会崩溃。我们可以使用telnet连接到服务器并发送一些伪造数据来模拟这个操作:
果然,服务器崩溃了:
为了更好地处理这些问题,调用包装from_socket在try-except块,并在发送格式错误请求时,向客户端发送“400错误请求”:
如果现在试图破解它,客户端会收到响应,服务器将保持不变:
然后开始实现文件服务部分,首先让默认响应为404:
另外,添加一个“405 Method Not Allowed”回应。
定义一个SERVER_ROOT常量来表示服务器应该从哪里提供文件以及serve_file函数。
serve_file采用客户端套接字和文件路径。然后尝试将该路径解析为内部的真实文件SERVER_ROOT,如果文件解析为服务器根外部,则返回“未找到”响应。
然后使用os.fstat打开文件并找出其MIME类型和大小,再构造响应头并使用sendfile系统调用将文件写入套接字。如果无法在磁盘上找到该文件,则发送“找不到”响应。
如果加入serve_file混合,服务器循环状态如下:
如果在server.py文件目录中添加一个www/index.html文件并访问http:// localhost:9000,就可以看到该文件的内容。