什么是bs4
和 lxml 一样,Beautiful Soup 也是一个HTML/XML的解析器,主要的功能也是如何解析和提取 HTML/XML 数据。beautifulsoup4比xpath解析数据要慢,因为beautifulsoup4载入的是整个html文档
使用 pip 安装即可:pip install beautifulsoup4
pip install lxml
方法
findall()查找所以节点 findall()查找单个节点
支持CSS选择器
获取标签属性写法:p['class']或p.attrs['class']
获取标签文本:p.get_text()或p.string
注意:使用beautifulsoup需要依赖其他解析器
‘lxml’表示使用的是lxml下的HTML解析器,容错性好,可读性强
‘HTML.parser’是python内置的解析器
参数作用:
name=None ------设置要获取的节点名称
attrs={} ------是一个字典类型,设置标签的属性
limit=None-----限制返回的条数
text(字符串) 查找符合text文本的字符串,并返回。