bs4解析

什么是bs4

和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。beautifulsoup4比xpath解析数据要慢,因为beautifulsoup4载入的是整个html文档

使用 pip 安装即可:pip install beautifulsoup4
pip install lxml

方法

findall()查找所以节点 findall()查找单个节点
支持CSS选择器
获取标签属性写法:p['class']或p.attrs['class']
获取标签文本:p.get_text()或p.string

注意:使用beautifulsoup需要依赖其他解析器
‘lxml’表示使用的是lxml下的HTML解析器,容错性好,可读性强
‘HTML.parser’是python内置的解析器

参数作用:

name=None ------设置要获取的节点名称
attrs={} ------是一个字典类型,设置标签的属性
limit=None-----限制返回的条数
text(字符串) 查找符合text文本的字符串,并返回。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容