5. XPath 解析库

XPath

XPath,全称XML Path Language,即XML路径语言,它提供简洁明了的路径选择表达式,用于在 XML 文档中通过元素和属性进行导航。

XPath常用规则

表达式 描述
nodename 选取此节点所有子节点
/ 从当前节点选取直接子节点
// 从当前节点选取所有子孙节点
. 选取当前节点
.. 选取当前节点的父节点
@ 选取属性

实例HTML文档

<div>
    <ul>
    <li class="item-0"><a href="link1.html"><span>first item</span></a></li>
    <li class="item-1"><a href="link2.html">second item</a></li>
   <li class="item-1 item-inactive" name="item"><a href="link3.html">third item</a></li>
    <li class="item-1"><a href="link4.html">fourth item</a></li>
    <li class="item-0"><a href="link5.html">fifth item</a></li>
    </ul>
    </div>

子节点、父节点、文本及属性

  • Python通过lxml库,利用XPath进行HTML解析
# 从lxml库导入etree模块
from lxml import etree

# 声明一段HTML文本
text
    '''
    实例HTNL文档(略)
    '''

# 调用HTML类进行初始化,构造XPath解析对象
html = etree.HTML(text)

# 调用tostring()方法输出修正后的HTML代码(bytes类型)
result = etree.tostring(html)

# 调用decode()方法将bytes类型的HTML代码转成str类型
print(result.decode('utf-8'))

f = open('test.html','wt',encoding = 'utf-8')
f.write(result.decode('utf-8'))
f.close()

'''
# 直接读取文本文件进行解析
html = etree.parse('test.html',etree.HTMLParse())
result = etree.tostring(html)
print(result.decode('utf-8'))
'''

  • 用//开头的XPath规则来选取所有符合要求的节点
  • 通过/或//查找元素的子节点或子孙节点
  • 通过..查找元素的父节点
  • 用@符号进行属性过滤或获取属性
  • 用text()方法获取节点中的文本
from lxml import etree
html = etree.parse('test.html',etree.HTMLParse())

 # 选取所有节点
result = html.xpath('//*') 

# 选取所有li节点的所有直接a子节点
result = html.xpath('//li/a') 

# 选取所有ul节点下所有子孙a节点
result = html.xpath('//ul//a') 

# 选中属性href为ink1.html的a节点,再选中取其父节点获取其class属性
result = html.xpath('//a[@href="link1.html"]/../@class') 

# 选取class为item-0的li节点
result = html.xpath('//li[@class="item-0"]')

# 选取属性为item-0的li节点,获取其直接子节点a的文本(以列表形式返回)
result = html.xpath('//li[@class="item-0"]/a/text()')

# 获取所有li节点所有直接a子节点的href属性(以列表形式返回)
result = html.xpath('//li/a/@href')
  • 通过contains()方法进行属性多值匹配(第一个参数传入属性名称,第二个参数传入属性值)
  • 多重属性匹配根据多个属性确定一个节点,需要同时匹配多个属性,可通过and运算符来连接
from lxml import etree
html = etree.parse('test.html',etree.HTMLParse())

'''
<li class="item-1 item-inactive" name="item"><a href="link3.html">third item</a></li>
'''

# 匹配class属性为item-inactive的li节点并获取其直接a子节点的文本
result = html.xpath('//li[contains(@class,"item-inactive")]/a/text()')

# 匹配class属性为为item-inactive、name属性为item的li节点并获取其直接a子节点的文本
result = html.xpath('//li[contain(@class,"item-inactive") and @name="item"]/a/text')
  • XPath运算符
运算符 描述
or
and
mod 计算除法的余数
| 计算两个节点集
+ 加法
- 减法
* 乘法
div 除法
= 等于
!= 不等于
< 小于
<= 小于或等于
> 大于
>= 大于或等于

按序选择

  • 匹配多个节点可利用中括号传入索引的方法获取特定次序的节点
from lxml import etree
html = etree.parse('test.html',etree.HTMLParse())

# 选取匹配到的第一个li节点
result = html.xpath('//li[1]/a/text')

# 选取匹配到的最后一个li节点
result = html.xpath('//li[last()]/a/text')

# 选取匹配到的位置序号小于3的li节点
result = html.xpath('//li[position()<3]/a/text')

# 选取匹配到的倒数第三个li节点
result = html.xpath('//li[last()-2]/a/text')

节点轴选择

XPath轴可定义相对于当前节点的节点集。

描述
ancestor 选取当前节点的所有先辈(父、祖父等)
ancestor-or-self 选取当前节点的所有先辈(父、祖父等)以及当前节点本身
attribute 选取当前节点的所有属性
child 选取当前节点的所有子元素
descendant 选取当前节点的所有后代元素(子、孙等)
descendant-or-self 选取当前节点的所有后代元素(子、孙等)以及当前节点本身
following 选取文档中当前节点的结束标签之后的所有节点
namespace 选取当前节点的所有命名空间节点
parent 选取当前节点的父节点
preceding 选取文档中当前节点的开始标签之前的所有节点
preceding-sibling 选取当前节点之前的所有同级节点
self 选取当前节点
from lxml import etree
html = etree.parse('test.html',etree.HTMLParse())

'''
<li class="item-0"><a href="link1.html"><span>first item</span></a></li>
'''

# 轴后跟两个冒号再跟节点选择器

# 获取第一个li节点的所有祖先节点(html、body、div和ul)
result = html.xpath('//li[1]/ancestor::*')

# 获取第一个li节点的div祖先节点
result = html.xpath('//li[1]/ancestor::div')

# 获取第一个li节点的所有属性值
result = html.xpath('//li[1]/attribute::*')

# 获取第一个li节点href属性为link1.html的a节点
result = html.xpath('//li[1]/child::a[@href="link1.html"]')

# 获取第一个li节点的所有包含span而不包含a的子孙节点
result = html.xpath('//li[1]/descendant::span')

# 获取第一个li节点后的第二个后续节点
result = html.xpath('//li[1]/following::*[2]')

# 获取第一个li节点后的所有同级节点
result = html.xpath('//li[1]/following-sibling::*')

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,647评论 18 139
  • 20170531 这几天重新拾起了爬虫,算起来有将近5个月不碰python爬虫了。 对照着网上的程序和自己以前写的...
    八神苍月阅读 14,158评论 3 44
  • 单翼天使曾经流下的哪滴 血红色 眼泪 并没有消失在天地之间!!!而是渗透地核之中 在地心经过万年的岁月在孕育出一个...
    l黑夜l阅读 480评论 0 1
  • 春节的尾巴,他渐渐频繁地联系她,罕见地对她说想念的话。 她有时会想自己究竟对他是什么情愫,他迷恋的是她年...
    侬好呀阅读 243评论 0 1
  • 总有一些事 必须要用一生珍藏 经过了岁月的洗礼 静静地散发着怡人的芳香 总有一个人 是今生花开的守望 那一瞬间绽放...
    伊清欢阅读 236评论 0 2