在MacBook中进行网络爬虫的学习1——初识网络爬虫

爬虫的定义:Web Crawler是一种自动获取网页信息的程序或脚本,也称为网络蜘蛛(spider)或网络机器人。

学习爬虫的原因:帮助我们快速的、自动的获取互联网上的各种数据,包括新闻、价格、天气、股票等。这些数据对于研究、分析和决策非常有用。

爬虫的用途:

(1)搜素引擎利用爬虫收集网页信息,建立索引,用户通过搜索引擎可以快速的找到所需要的信息。

(2)数据分析,采集大量的数据,分析,建模,帮助企业了解市场趋势,用户行为等。

(3)舆情分析,收集网上的舆情信息,分析舆情走向,为企业提供决策参考。

(4)信息监控,定时监控网页信息的变化,例如竞争对手的价格变化,为企业提供参考决策。

(5)信息聚合,将不同来源的信息聚合在一起,为用户提供便捷的信息获取方式。

(6)应用开发,为应用开发提供数据支撑,例如开发天气预报软件,获取天气信息为其提供数据支撑。

爬虫的分类:

通用爬虫:不针对特定的网站(搜素引擎)

聚焦爬虫:针对特定网站或特定类型的网站,例如12306网站抢票等

增量式爬虫:在上一次抓取的基础上,只抓取新增加的或者有更新的数据

深层网络爬虫:抓取互联网中深层次的网页,这些网页通常都是非结构化的

爬虫的工作流程:

(1)发送请求:爬虫发送HTTP请求到目标网站

(2)获取响应:获取请求返回的响应内容

(3)解析响应内容:比如url链接或者文本数据

(4)存储数据:将解析出来的数据存储到本地或者数据库中

robots协议:也称为robots.txt,是一个网站根目录下的文本文件,主要包含User-agent和Disallow两个信息

User-agent指定了爬虫的名称或标识符,Disallow指定了不允许访问的url路径。


特别需要注意的是:网络爬虫不能采集用户的隐私信息(姓名、身份证号、手机号等),这些是属于违法的(爬虫写的好,牢饭吃的早)

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容