除了网络网站,HTTP协议仍然可以以App等为客户端,传输一些不限于网页的数据了。
但是这些数据,仍然是被HTTP的报文所包含的。
服务器开发主要工作在So.send()和So.recv()之间
爬虫:站在客户端的角度进行。
192.168.1.1/index.py
是浏览器让服务器去执行index.py脚本,把执行后的结果传回浏览器。
百度是如何知道互联网中的网站的呢?
爬虫:跟我们的app、浏览器作用于一样的,向服务器发送各种请求。
爬虫本身是个程序,并非浏览器,拿到的和浏览器拿到的一样的资源(带有标签的页面信息)
数据库是保存数据的东西,保存爬虫的映射信息
避免重复爬,也要避免漏爬
搜索引擎公司会有算法进行排序问题
一个HTTP协议的代码编写流程框架: