2.网络爬虫基本原理

01.网络爬虫本质
最大的爬虫就是各种搜索引擎,如谷歌、百度。
网络爬虫就是按照一定规则去抓取人类所需要的信息的程序,主要通过对URL的请求实现。


image.png

浏览器的一次请求,网站服务器的一次响应,就构成一次网络爬虫行为。

02.网络爬虫基础流程
1.获取网页的URL地址
2.分辨请求网页的方法
GET/POST
3.查看网页的源代码
4.撰写爬虫请求头
5.解析页面内容
bs4/xpath/re
6.存储信息到本地
03.开发者工具

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容