- 请说说从你在浏览器地址栏输入网站到你看到网页中间都发生了什么?
- 浏览器发出请求
- 服务器做出响应
- 浏览器接收响应
- 网址是否有效
判断URL的合法性
基本URL包含协议(模式)+服务器名称(IP地址)+(路径+文件名)
关于URL - 服务器在哪里
DNS服务器解析域名得到真实的IP地址,域名就是url里的host,Google的开发者选项里可以看到在headers里也定义了host
大型爬虫要维护自己的DNS缓存 - 浏览器向服务器发送了什么
一个遵循协议的请求
通过设置headers跟服务器沟通 - 服务器返回了什么
返回html代码