登录注册写文章

Python爬虫——BeautifulSoup4库入门

Python爬虫——BeautifulSoup4库入门

创建BeautifulSoup对象的两种方式：

从字符串创建：soup = BeautifulSoup(html_str,'html.parser')
从html文件创建：soup = BeautifulSoup(open('xx.html'))

解析器比较

解析器	优势
"html.parser"	python内置标准库；速度适中；容错强
"lxml"	速度快；容错强；需要`pip install lxml`
"xml"	速度快；支持XML的解析器
"html5lib"	容错性最强；生成HTML5格式的文档；速度慢

常用对象

Tag

与HTML或XML中的Tag相同，就是标签，有两个重要属性：name和attributes
name抽取方式：<Tag>.name （Beautiful对象也可以看作是一个Tag）
attributes 抽取方式: <Tag>.attrs可以拿到标签的所有属性，返回一个dict
如果要提取某个属性（比如class属性）的值，可以用<Tag>.get('class')或者<Tag>['class']，返回一个列表。

NavigableString

获取标记内部的文字：<Tag>.string

遍历文档树

<Tag>.contents的方式可以将Tag的子节点以列表的形式输出；<Tag>.children同理，但是输出的是一个生成器，可以用循环来读取。<Tag>.decendants可以对tag的所有子孙节点都循环递归出来。
<Tag>.parent可以获得某个元素的父节点，<Tag>.parents则得到所有的父辈节点（与decendants一致）
<Tag>.next_siblings可以迭代出该节点后面的所有兄弟节点。（处于同一个父节点下面的）

检索方法

find_all()方法
函数原型：find_all(name, attrs, recursive, text, **kwargs)
1.name参数——标签名。
直接传入标签名的字符串即可，也支持传入一个字符串数组。
可以传入一个正则表达式，比如re.compile('^b')可以检索到以b开头的标记比如body,b,br

kwargs参数——可以传入id,href,_class（因为python中已有class作为保留字，故用_class代替class）等属性。
比如soup.find_all('a', class_= 'sister', id = 'link')就是说找a标签,class属性为'sister,id为'link'的标签;
href = True则搜索包含href属性的标签;
另外，同样支持传入一个正则表达式；
如果某些html5里面的值不能用id = 'x'来表达，那么可以传入attrs = {'id' : 'x'}来表示。
3.limit参数：可以用来限定返回个数，比如设置为limit =2 返回两个值。
4.recursive参数：迭代，默认为True，若设置为False则只返回子节点内的搜索。

CSS选择器
1.用soup.select(Tag)来找标签，返回是一个标签列表，比如soup.select('p')可以找到所有段落。soup.select('img')找到所有图片。

常见是' '表示标签，'.xxx'表示CSS class xxx属性。'div span'表示所有在div元素之内的span元素。 'div>span'表示直接在div下一级的span 。#comic表示带有id属性为comic的元素。'.t'代表class属性为t的元素。
是否存在某个属性来查找：'a[href]'可以查找出所有带有href属性的a标签。

最后编辑于：2018.08.18 21:25:29

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

python爬虫里信息提取的核心方法: Beautifulsoup Xpath 正则表达式
20170531 这几天重新拾起了爬虫，算起来有将近5个月不碰python爬虫了。对照着网上的程序和自己以前写的...
八神苍月阅读 14,810评论 3赞 44
Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 136,068评论 19赞 139

Python爬虫之Beautiful Soup用法
关于bs4，官方文档的介绍已经非常详细了,传送：Beautifulsoup 4官方文档,这里我把它组织成自己已经消...
徐薇薇阅读 10,899评论 0赞 1
Python爬虫入门（urllib+Beautifulsoup）
Python爬虫入门（urllib+Beautifulsoup）本文包括：1、爬虫简单介绍2、爬虫架构三大模块3...
廖少少阅读 13,345评论 0赞 6
一生的时间
从小就觉得自己是个奇女子，把自己想象成无所不能的仙女，闯荡江湖的游侠，总觉得自己很特别，在爸妈面前顽皮捣蛋，在外人...
杏花疏影里阅读 2,976评论 0赞 1

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文