什么是xpath?
xpath (lxml Path language)是一门在xml文档中查找信息的语言,可以遍历和搜索,xml文档中的文本和属性,同样适用html
什么是xml?
是一门可扩展的编辑语言,是为了传输数据,内部的标签可自定义
xml的结构类似于HTML
安装lxml库:pip3 install lxml
xpath语法的路径表达式(常用)
nodename(节点名称)------获取此节点下所有的子节点
/ -------获取当前节点下的直接子节点
// -------获取当前节点下的节点,不考虑节点位置
. -------获取当前节点
.. -------获取当前节点的父节点
@+属性名--------获取属性
bs4_usod(Beautifulsoup4)?
是python的一个xml和html的解析器,目的是从xml或HTML中提取数据
安装:pip3 install beautifulsoup4
beautifulsoup4比xpath解析数据要慢,因为beautifulsoup4载入的是整个html文档
方法
findall()查找所以节点 findall()查找单个节点
支持CSS选择器
获取标签属性写法:p['class']或p.attrs['class']
获取标签文本:p.get_text()或p.string
注意:使用beautifulsoup需要依赖其他解析器
‘lxml’表示使用的是lxml下的HTML解析器,容错性好,可读性强
‘HTML.parser’是python内置的解析器
参数作用:
name=None ------设置要获取的节点名称
attrs={} ------是一个字典类型,设置标签的属性
limit=None-----限制返回的条数
text(字符串) 查找符合text文本的字符串,并返回。