bs4解析

和 lxml 一样，Beautiful Soup 也是一个HTML/XML的解析器，主要的功能也是如何解析和提取 HTML/XML 数据。beautifulsoup4比xpath解析数据要慢，因为beautifulsoup4载入的是整个html文档

使用 pip 安装即可：pip install beautifulsoup4
pip install lxml

findall()查找所以节点 findall()查找单个节点
支持CSS选择器
获取标签属性写法：p['class']或p.attrs['class']
获取标签文本：p.get_text()或p.string

注意：使用beautifulsoup需要依赖其他解析器
‘lxml’表示使用的是lxml下的HTML解析器，容错性好，可读性强
‘HTML.parser’是python内置的解析器

name=None ------设置要获取的节点名称
attrs={} ------是一个字典类型，设置标签的属性
limit=None-----限制返回的条数
text（字符串）查找符合text文本的字符串，并返回。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

赞1赞

赞赏

手机看全文