爬虫简介

爬虫:一段自动抓取互联网信息的程序


价值:互联网数据,为我所用!


简单爬虫架构

简单爬虫架构-运行流程

URL管理器

URL管理器:管理待抓取URL集合和已抓取URL集合

- 防止重复抓取、防止循环抓取

- 实现方式

网页下载器

网页下载器:将互联网上URL对应的网页下载到本地的工具

python有哪几种网页下载器?


Resource is from www..imooc.com/learn/563

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 文:郑元春 人生苦短,我用Python 由于最近需要做些大数据分析的工作,所以就学习了写下爬虫了,毕竟数据才是分析...
    北静王阅读 4,900评论 0 8
  • 爬虫是什么 网页的本质,是设备通过读取服务器数据库的内容,按照既定格式投射到显示屏上的过程。 我们在电脑,手机或者...
    117他爸阅读 1,878评论 0 1
  • Python爬虫入门(urllib+Beautifulsoup) 本文包括:1、爬虫简单介绍2、爬虫架构三大模块3...
    廖少少阅读 13,337评论 0 6
  • 第一章 :网络爬虫简介 1.网络爬虫是什么? 2.网络爬虫何时有用? 3.背景调研 检查robots.txt 大都...
    Bugl0v3r阅读 3,332评论 0 2
  • 【2.7】《XC助手》 〔修复软件瘫痪,网友提货的缺点也大大改进,如果你有好的建议请联系作者〕 〖网址:https...
    74e475d3cd4a阅读 1,859评论 0 0