lxml.etree之xpath
from lmxl import etree
解析文件和网页数据
# 解析文件
tree = etree.parse('file.xml')
# 解析网页
tree = etree.HTML('html_text')
定位标签
xpath('xpath表达式') => 返回列表
r = tree.xpath('/html/body/div')
用法 | 说明 |
---|---|
'/' | 表示从根节点开始定位,表示一个层级 |
'//' | 表示多个层级,开头时表示从任意位置开始定位 |
'./' | 表示从当前标签开始定位 |
'标签名[@属性名="属性值"]' | 属性定位 |
'标签名[索引]' | 索引定位,索引从1开始 |
'xpath表达式1 | xpath表达式2' | 多重定位 |
标签名/text() | 获取直系文本 |
标签名//text() | 获取非直系文本 |
标签名/@属性名 | 获取属性值 |