登录注册写文章

2018-05-22爬虫原理、代码编写流程框架

2018-05-22爬虫原理、代码编写流程框架

除了网络网站，HTTP协议仍然可以以App等为客户端，传输一些不限于网页的数据了。
但是这些数据，仍然是被HTTP的报文所包含的。
服务器开发主要工作在So.send()和So.recv()之间
爬虫：站在客户端的角度进行。
192.168.1.1/index.py
是浏览器让服务器去执行index.py脚本，把执行后的结果传回浏览器。
百度是如何知道互联网中的网站的呢？
爬虫：跟我们的app、浏览器作用于一样的，向服务器发送各种请求。
爬虫本身是个程序，并非浏览器，拿到的和浏览器拿到的一样的资源（带有标签的页面信息）
数据库是保存数据的东西，保存爬虫的映射信息
避免重复爬，也要避免漏爬
搜索引擎公司会有算法进行排序问题

一个HTTP协议的代码编写流程框架：

HTTP协议代码编写流程框架

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 135,087评论 19赞 139
无标题文章
# Python 资源大全中文版我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
小迈克阅读 3,063评论 1赞 3
Python--Flask Django等常用库总结
# Python 资源大全中文版我想很多程序员应该记得 GitHub 上有一个 Awesome - XXX 系列...
aimaile阅读 26,622评论 6赞 427
数据分析卡片（一）：热图
作为产品或者运营，我们几乎每天都会重复同一件事，说服老板/开发/设计/市场同意我们的建议或者方案。他们往往会用怀疑...
说好的123呢阅读 2,447评论 3赞 7
浦月读书省思•我理解的顺教育和逆教育
在没有系统的学习《性情之光》之前，在对孩子到底是顺从他的天性，还是给她感受逆境这个问题上，内心有过一两年的摸索和纠...
未曾行阅读 1,149评论 0赞 0

赞1赞

赞赏

手机看全文