2018-05-22爬虫原理、代码编写流程框架

除了网络网站,HTTP协议仍然可以以App等为客户端,传输一些不限于网页的数据了。
但是这些数据,仍然是被HTTP的报文所包含的。
服务器开发主要工作在So.send()和So.recv()之间
爬虫:站在客户端的角度进行。
192.168.1.1/index.py
是浏览器让服务器去执行index.py脚本,把执行后的结果传回浏览器。
百度是如何知道互联网中的网站的呢?
爬虫:跟我们的app、浏览器作用于一样的,向服务器发送各种请求。
爬虫本身是个程序,并非浏览器,拿到的和浏览器拿到的一样的资源(带有标签的页面信息)
数据库是保存数据的东西,保存爬虫的映射信息
避免重复爬,也要避免漏爬
搜索引擎公司会有算法进行排序问题

一个HTTP协议的代码编写流程框架:


HTTP协议代码编写流程框架
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,087评论 19 139
  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    小迈克阅读 3,063评论 1 3
  • # Python 资源大全中文版 我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
    aimaile阅读 26,622评论 6 427
  • 作为产品或者运营,我们几乎每天都会重复同一件事,说服老板/开发/设计/市场同意我们的建议或者方案。他们往往会用怀疑...
    说好的123呢阅读 2,447评论 3 7
  • 在没有系统的学习《性情之光》之前,在对孩子到底是顺从他的天性,还是给她感受逆境这个问题上,内心有过一两年的摸索和纠...
    未曾行阅读 1,149评论 0 0