Python

Day 6

换换口味

爬虫

URl 自动抓取互联网数据 url 相互指向形成一个互联网 

使用Python 设立主题从互联网上从一个网页出发提取所有相关数据

爬虫需要


运行流程

爬虫调度端:启动爬虫,停止爬虫,监视爬虫运行情况

URL管理器:对将要爬取的和已经爬取过的URL进行管理;可取出带爬取的URL,将其传送给“网页下载器”

网页下载器:将URL指定的网页下载,存储成一个字符串,在传送给“网页解析器”

网页解析器:解析网页可解析出①有价值的数据②另一方面,每个网页都包含有指向其他网页的URL,解析出来后可补充进“URL管理器”

管理器是为了防止重复抓取



网页下载器把网页下载到本地 然后进行后续的分析处理


urllib2 是内置插件

下载网页的方法



视频是Python 2.7 的 要换成eclipse运行


第二种方法

下载网页


三种方法的代码


结构化解析  是把网页转化成一个


转化成一个树 w3cschool的要求

通过这个树document

把HTML下面的元素  元素下面的文档 取出来


这样可以通过树的方式访问每一个位置 进行网页解析


安装beautifulsoup4 

安装完成


运行结果完美


find_all 会搜素所有满足要求的节点

find 只会搜素第一个满足要求的节点


然后

然后可以按照节点进行搜索



进行检索


创建bs4 对象然后 加载bs模块


根据HTML文档 创建bs对象

传入三个参数 字符串 解析器 编码防止与代码的编码不一样


find-all 的参数 包含三个 name节点的名称 attrs 节点的属性 string 节点的文字


比如我要查找a的节点 直接传入a的名称即可,....


通过名称属性 文字就可以搜索所有节点

访问节点信息


node.name 获取节点名称

node[] 通过字典的形式访问到所有属性

node.get_text()的方法来获取节点的文字

创建bs对象 搜索dom树 访问节点内容 实现对网页的解析访问


一个for循环


只获取一个lacie 的链接


正则表达式用来查找相应文件



有问题!!!


实战

爬行 标题和简介



明天继续
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 声明:本文讲解的实战内容,均仅用于学习交流,请勿用于任何商业用途! 一、前言 强烈建议:请在电脑的陪同下,阅读本文...
    Bruce_Szh阅读 14,382评论 6 28
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,663评论 19 139
  • 小时读书不用心 不知书中有黄金 要知书中黄金贵 夜点明灯下苦功
    丿陈小天阅读 1,313评论 0 0
  • 你我之间,不多不少,刚好知道,不深不浅,恰是新知 很高兴你能来,但也不遗憾你离开 当心中的伤痛被幸福治愈的时候...
    Answer_7阅读 864评论 0 0