xpath的使用
1.安装:
pip install lxml
2.引用:
from lxml import etree
创建etree对象进行指定数据解析
1.本地
etree = etree.parse(‘本地路径’)
etree.xpath(‘xpath表达式’)
2.网络
etree = etree.HTML(‘网络请求到页面的数据’)
etree.xpath(‘xpath表达式’)
常用的xpath表达式:
属性定位:
找到class属性值为song的div标签
div[@class=‘song’]
层级索引定位
找到class属性值为tang的div的直系子标签ul下的第二个子标签li下的直系子标签a
div[@class=‘tang’]/ul/li[2]/a
逻辑运算
找到href属性值为空且class属性值为du的a标签
a[@href=’’ and @class=‘du’]
模糊匹配
- /表示获取某个标签下的文本内容 //div[@class=‘song’]/p[1]/text()
- //表示获取某个标签下的文本内容和所有子标签下的文本内容 //div[@class=‘tang’]//text()
取属性
- //div[@class=‘tang’]//li[2]/a/@href