意义
可能觉得这是在做了一个轮子,回想当初学习http协议时,需要了解各种协议头的作用,但是那时候只是在学习,没有真正去测试http各种头部的含义。在此,重新做了一个静态文件服务器,以学习http知识及dotnet应用。
一、使用控制台制作服务
(1)简单http服务
生成socket服务,绑定IP和端口
Socket socket = new Socket(AddressFamily.InterNetwork, SocketType.Stream, ProtocolType.Tcp);
socket.Bind(new IPEndPoint(IPAddress.Any, 10080));
socket.Listen(100);
//接收客户端的 Socket请求
socket.BeginAccept(OnAccept, socket);
每个HTTP请求处理
var serverSocket = async.AsyncState as Socket;
//获取到客户端的socket
var clientSocket = serverSocket.EndAccept(async);
//进行下一步监听
serverSocket.BeginAccept(OnAccept, serverSocket);
//响应头部部分
clientSocket.Send(Encoding.UTF8.GetBytes(responseHeader));
//响应body部分
clientSocket.Send(Encoding.UTF8.GetBytes(response_text));
(2)处理request信息
var bytes = new byte[10000];
//获取socket的内容
var len = clientSocket.Receive(bytes);
//request为请求头,将 bytes[] 转换 string
var request = Encoding.UTF8.GetString(bytes, 0, len);
//从请求头中获取path部分“GET /index.html HTTP/1.1”
var filePath = request.Split("\r\n")[0].Split(" ")[1].TrimStart('/');
request的头部内容
GET /index.html HTTP/1.1
Host: 127.0.0.1:10080
Connection: keep-alive
Upgrade-Insecure-Requests: 1
User-Agent: Mozilla/5.0 (Windows NT 10.0; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/86.0.4240.198 Safari/537.36
Accept: text/html,application/xhtml+xml,application/xml;q=0.9,image/avif,image/webp,image/apng,*/*;q=0.8,application/signed-exchange;v=b3;q=0.9
Sec-Fetch-Site: none
Sec-Fetch-Mode: navigate
Sec-Fetch-User: ?1
Sec-Fetch-Dest: document
Accept-Encoding: gzip, deflate, br
Accept-Language: zh-CN,zh;q=0.9,en;q=0.8,ja;q=0.7
Cookie: _ga=GA1.1.1017728174.1598968861
(3)处理响应头部
HTTP/1.1 {0}
Date: {1}
Expires: {2}
Server: {3}
Content-Type: {4}
Cache-Control: max-age=86400
Connection: keep-alive
Content-Length: {5}
http_status_code,
System.DateTime.Now.ToString("R"),
DateTime.Now.AddDays(1).ToString("R"),
"WebServer",
content_type,
content_length
注意:响应头部最后有两个回车换行“\r\n\r\n”。
处理状态码
最常用状态码为200、404,在正确返回文件时,返回200状态码,当文件不存在时,需要返回404状态码。简单文件服务器一般不使用其他状态码
var http_status_code = "200 OK"; //设置默认状态码
http_status_code = "404 Not Found"; //当文件不存在时响应404状态码
Content-Type的判断
参考Nginx程序的响应方式,将/nginx/conf/mime.types
文件解析成Dictionary类型的数据,从请求文件中获取到文件的扩展名,对应到mime-type。
Content-Length的计算
//字节流计算
response_file = System.IO.File.ReadAllBytes(filePath);
BitArray myBA = new BitArray(response_file);
content_length = Convert.ToInt32(myBA.Length / 8);
//文本类型
response_text = System.IO.File.ReadAllText(filePath, Encoding.UTF8);
content_length = Encoding.UTF8.GetByteCount(response_text);
Content-Length可不返回,但是返回就必须和真实的文件大小一致。
(4)响应字节流文件
response_file = System.IO.File.ReadAllBytes(filePath);
BitArray myBA = new BitArray(response_file);
content_length = Convert.ToInt32(myBA.Length / 8);
(5)响应文本文件
response_text = System.IO.File.ReadAllText(filePath, Encoding.UTF8);
content_length = Encoding.UTF8.GetByteCount(response_text);
(6)特殊文件处理
默认首页
if(filePath == "" || filePath == "/")
{
filePath = "index.html";
}
// 以`/`为末尾的,默认获取该目录下的`index.html`文件
if(filePath.Substring(filePath.Length - 1, 1) == "/")
{
filePath = filePath + "index.html"; //默认页面
}
文件不存在时
//获取文件内容
try
{
// ... 获取文件,若获取失败,则抛出异常
}
catch (Exception e)
{
http_status_code = "404 Not Found";
response_text = System.IO.File.ReadAllText(webpath + "404.html", Encoding.UTF8);
content_type = "text/html";
content_length = Encoding.UTF8.GetByteCount(response_text);
}
去除问号访问
if (filePath.Contains("?"))
{
filePath = filePath.Split("?")[0];
}
(7)效果预览
总结
做简易自主的本地静态文件服务器,效果还是不错的。之后做成桌面应用程序,双击软件即运行站点。
TODO+优化
- 未处理子目录下的默认文件,例如
/html/
要访问到/html/index.html
【已完成】 - 服务端没有找到文件时,要返回404状态码和默认404页面。【已完成】
- 获取请求头的host,访问到不同的站点(虚拟主机)。
- 带参数时获取不到文件,例如
index.html?id=123
需要把?
及后面的参数过滤,带#
的URL无需处理。【已完成】 - 每个HTTP请求都占用一个连接,需要保持同一个TCP连接请求。
资源消耗
Nginx占用内存1.5MB,该应用占用25MB,当然是不能和Nginx相比较的。
HTTP头部问题
-
Pragma: no-cache
需要去掉,避免缓存失效。 -
Cache-Control: max-age=86400
设置缓存1天。 - 请求头的操作,HTTP服务端指定的Host是以头部的Host为准,URL上的Host是无效的。
C:\Users\admin>curl http://127.0.0.1/ -H "Host: fe80.cn" -v
* Trying 127.0.0.1...
* TCP_NODELAY set
* Connected to 127.0.0.1 (127.0.0.1) port 80 (#0)
> GET / HTTP/1.1
> Host: fe80.cn
> User-Agent: curl/7.55.1
> Accept: */*
“你的主机中的软件中止了一个已建立的连接”的问题
出现原因:
1、由于客户端在发送请求后,还没等服务器响应就断开了连接,有可能是因为网络原因,突然网断了,但是如果错误频繁出现的话,可能就是服务端的问题了。
2、有可能是后台处理时间太长了。
3、服务器的并发连接数超过了其承载量,服务器会将其中一些连接Down掉。
4、客户关掉了浏览器,而服务器还在给客户端发送数据。
5、出现404或者获取不到文件时出现该问题。
6、访问过于频繁时404的文件报该问题。
等其他原因,但这个问题还没有解决。
使用Wireshark抓包
过滤参数 http && tcp.port == 10080
通过抓包发现,一个请求有两个响应。后面查到该请求的request
为空,因此应该不做处理,否则返回200的空响应会终止该连接。