初识网络爬虫

网络爬虫

网络爬虫是指在互联网上自动爬取网站内容信息的程序，也称作网络蜘蛛或网络机器人。

一个网络爬虫程序的基本执行流程可以总结为一下循环：

基础流程图

1.下载页面

一个网页的内容本质上就是一个HTML文本，爬取一个网页内容之前首先要根据网页的URL下载网页。

2.提取页面的数据

当一个网页（HTML）下载完成后，对页面中的内容进行分析，并提取出我们感兴趣的数据，提取到的数据可以以多种形式保存起来，比如将数据以某种格式（CSV，JSON）写入文件中，后者存储到数据库（MySQL,MongoDB)中。

3.提取页面中链接

我们获取的数据不仅仅在一个页面上，而分布在多个页面上，页面之间是相互联系的，一个页面中包含多分页面的链接，提取完当前页面数据后，我们还要提取某些链接对链接的页面再进行爬取。

设计爬虫程序时，还要考虑防止重复爬取相同页面（URL去重）、网页搜索策略（深度优先或者广度优先等）、爬虫访问边界限定等一系列问题。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

初识网络爬虫