登录注册写文章

Python

Python

Day 6

换换口味

爬虫

URl 自动抓取互联网数据 url 相互指向形成一个互联网

使用Python 设立主题从互联网上从一个网页出发提取所有相关数据

爬虫需要

运行流程

爬虫调度端：启动爬虫，停止爬虫，监视爬虫运行情况

URL管理器：对将要爬取的和已经爬取过的URL进行管理；可取出带爬取的URL，将其传送给“网页下载器”

网页下载器：将URL指定的网页下载，存储成一个字符串，在传送给“网页解析器”

网页解析器：解析网页可解析出①有价值的数据②另一方面，每个网页都包含有指向其他网页的URL，解析出来后可补充进“URL管理器”

管理器是为了防止重复抓取

网页下载器把网页下载到本地然后进行后续的分析处理

urllib2 是内置插件

下载网页的方法

视频是Python 2.7 的要换成eclipse运行

第二种方法

下载网页

三种方法的代码

结构化解析是把网页转化成一个

转化成一个树 w3cschool的要求

通过这个树document

把HTML下面的元素元素下面的文档取出来

树

这样可以通过树的方式访问每一个位置进行网页解析

安装beautifulsoup4

安装完成

运行结果完美

find_all 会搜素所有满足要求的节点

find 只会搜素第一个满足要求的节点

然后

然后可以按照节点进行搜索

进行检索

创建bs4 对象然后加载bs模块

根据HTML文档创建bs对象

传入三个参数字符串解析器编码防止与代码的编码不一样

find-all 的参数包含三个 name节点的名称 attrs 节点的属性 string 节点的文字

比如我要查找a的节点直接传入a的名称即可，....

通过名称属性文字就可以搜索所有节点

访问节点信息

node.name 获取节点名称

node[] 通过字典的形式访问到所有属性

node.get_text()的方法来获取节点的文字

创建bs对象搜索dom树访问节点内容实现对网页的解析访问

一个for循环

只获取一个lacie 的链接

正则表达式用来查找相应文件

有问题！！！

实战

爬行标题和简介

明天继续

最后编辑于：2017.12.06 07:37:41

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

一小时入门 Python 3 网络爬虫
声明：本文讲解的实战内容，均仅用于学习交流，请勿用于任何商业用途！一、前言强烈建议：请在电脑的陪同下，阅读本文...
Bruce_Szh阅读 14,386评论 6赞 28
Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 136,013评论 19赞 139

读书
小时读书不用心不知书中有黄金要知书中黄金贵夜点明灯下苦功
丿陈小天阅读 1,468评论 0赞 0
时光回去，只愿未曾遇到你（42）想妈妈
唐妈阅读 10,483评论 84赞 103
天生骄傲
你我之间，不多不少，刚好知道，不深不浅，恰是新知很高兴你能来，但也不遗憾你离开当心中的伤痛被幸福治愈的时候...
Answer_7阅读 1,162评论 0赞 0

友情链接更多精彩内容

赞1赞

赞赏

手机看全文