一、xpath介绍
XPath 是一门在 XML 文档中查找信息的语言。XPath 用于在 XML 文档中通过元素和属性进行导航。
- XPath 使用路径表达式在 XML 文档中进行导航
- XPath 包含一个标准函数库
- XPath 是 XSLT 中的主要元素
- XPath 是一个 W3C 标准
节点
在 XPath 中,有七种类型的节点:元素、属性、文本、命名空间、处理指令、注释以及文档(根)节点。XML 文档是被作为节点树来对待的。
请看下面这个 XML 文档:
<?xml version="1.0" encoding="UTF-8"?>
<bookstore>
<book>
<title lang="en">Harry Potter</title>
<author>J K. Rowling</author>
<year>2005</year>
<price>29.99</price>
</book>
</bookstore>
上面的XML文档中的节点例子:
<bookstore> (文档节点)
<author>J K. Rowling</author> (元素节点)
lang="en" (属性节点)
XPath 术语
概念 | 解释 | 举例 |
---|---|---|
基本值(或称原子值,Atomic value) | 基本值是无父或无子的节点 | J K. Rowling,"en" |
项目(Item) | 项目是基本值或者节点 | |
节点关系-父(Parent) | 每个元素以及属性都有一个父。 | 在上面的例子中,book 元素是 title、author、year 以及 price 元素的父: |
节点关系-子(Children) | 元素节点可有零个、一个或多个子。 | 在上面的例子中,title、author、year 以及 price 元素都是 book 元素的子: |
节点关系-同胞(Sibling) | 拥有相同的父的节点。 | 在上面的例子中,title、author、year 以及 price 元素都是同胞: |
节点关系-先辈(Ancestor) | 某节点的父、父的父,等等。 | 在上面的例子中,title 元素的先辈是 book 元素和 bookstore 元素。 |
后代(Descendant) | 某个节点的子,子的子,等等。 | 在上面的例子中,bookstore 的后代是 book、title、author、year 以及 price 元素。 |
二、xpath语法
路径表达式语法:
- 路径 = 相对路径 | 绝对路径
- XPath路径表达式 = 步进表达式 | 相对路径 "/"步进表达式。
- 步进表达式=轴 节点测试 谓词
说明:
- 其中轴表示步进表达式选择的节点和当前上下文节点间的树状关系(层次关系),节点测试指定步进表达式选择的节点名称扩展名,谓词即相当于过滤表达式以进一步过滤细化节点集。
- 谓词可以是0个或多个。多个多个谓词用逻辑操作符and, or连接。取逻辑非用not()函数。
- 请看一个典型的XPath查询表达式:/messages/message//child::node()[@id=0],其中/messages/message是路径(绝对路径以"/"开始),child::是轴表示在子节点下选择,node()是节点测试表示选择所有的节点。[@id=0]是谓词,表示选择所有有属性id并且值为0的节点。
选取节点
XPath 使用路径表达式在 XML 文档中选取节点。节点是通过沿着路径或者 step 来选取的。 下面列出了最有用的路径表达式:
表达式 | 描述 |
---|---|
nodename | 选取此节点的所有子节点。 |
/ | 从根节点选取。 |
// | 从匹配选择的当前节点选择文档中的节点,而不考虑它们的位置。 |
. | 选取当前节点。 |
.. | 选取当前节点的父节点。 |
@ | 选取属性。 |
例子
以下面这个xml为例子
<?xml version="1.0" encoding="ISO-8859-1"?>
<bookstore>
<book>
<title lang="eng">Harry Potter</title>
<price>29.99</price>
</book>
<book>
<title lang="eng">Learning XML</title>
<price>39.95</price>
</book>
</bookstore>
在下面的表格中,我们已列出了一些路径表达式以及表达式的结果:
路径表达式 | 结果 |
---|---|
bookstore | 选取 bookstore 元素的所有子节点。 |
/bookstore | 选取根元素 bookstore。注释:假如路径起始于正斜杠( / ),则此路径始终代表到某元素的绝对路径! |
bookstore/book | 选取属于 bookstore 的子元素的所有 book 元素。 |
//book | 选取所有 book 子元素,而不管它们在文档中的位置。 |
bookstore//book | 选择属于 bookstore 元素的后代的所有 book 元素,而不管它们位于 bookstore 之下的什么位置。 |
//@lang | 选取名为 lang 的所有属性。 |
谓语
谓语用来查找某个特定的节点或者包含某个指定的值的节点。
谓语被嵌在方括号中。
在下面的表格中,我们列出了带有谓语的一些路径表达式,以及表达式的结果:
路径表达式 | 结果 |
---|---|
/bookstore/book[1] | 选取属于 bookstore 子元素的第一个 book 元素。 |
/bookstore/book[last()] | 选取属于 bookstore 子元素的最后一个 book 元素。 |
/bookstore/book[last()-1] | 选取属于 bookstore 子元素的倒数第二个 book 元素。 |
/bookstore/book[position()<3] | 选取最前面的两个属于 bookstore 元素的子元素的 book 元素。 |
//title[@lang] | 选取所有拥有名为 lang 的属性的 title 元素。 |
//title[@lang=’eng’] | 选取所有 title 元素,且这些元素拥有值为 eng 的 lang 属性。 |
/bookstore/book[price>35.00] | 选取 bookstore 元素的所有 book 元素,且其中的 price 元素的值须大于 35.00。 |
/bookstore/book[price>35.00]/title | 选取 bookstore 元素中的 book 元素的所有 title 元素,且其中的 price 元素的值须大于 35.00。 |
选取未知节点
XPath 通配符可用来选取未知的 XML 元素。
通配符 | 描述 |
---|---|
* | 匹配任何元素节点。 |
@* | 匹配任何属性节点。 |
node() | 匹配任何类型的节点。 |
例子:
路径表达式 | 结果 |
---|---|
/bookstore/* | 选取 bookstore 元素的所有子元素。 |
//* | 选取文档中的所有元素。 |
//title[@*] | 选取所有带有属性的 title 元素。 |
选取若干路径
通过在路径表达式中使用“|”运算符,您可以选取若干个路径。
- //book/title | //book/price 选取 book 元素的所有 title 和 price 元素。
- //title | //price 选取文档中的所有 title 和 price 元素。
- /bookstore/book/title | //price 选取属于 bookstore 元素的 book 元素的所有 title 元素,以及文档中所有的 price 元素。
三、轴
轴可定义相对于当前节点的节点集。
轴名称 | 结果 |
---|---|
ancestor | 选取当前节点的所有先辈(父、祖父等)。 |
ancestor-or-self | 选取当前节点的所有先辈(父、祖父等)以及当前节点本身。 |
attribute | 选取当前节点的所有属性。 |
child | 选取当前节点的所有子元素。 |
descendant | 选取当前节点的所有后代元素(子、孙等)。 |
descendant-or-self | 选取当前节点的所有后代元素(子、孙等)以及当前节点本身。 |
following | 选取文档中当前节点的结束标签之后的所有节点。 |
namespace | 选取当前节点的所有命名空间节点。 |
parent | 选取当前节点的父节点。 |
preceding | 选取文档中当前节点的开始标签之前的所有节点。 |
preceding-sibling | 选取当前节点之前的所有同级节点。 |
self | 选取当前节点。 |
步的语法:
轴名称::节点测试[谓语]
例子:
例子 | 结果 |
---|---|
child::book | 选取所有属于当前节点的子元素的 book 节点。 |
attribute::lang | 选取当前节点的 lang 属性。 |
child::* | 选取当前节点的所有子元素。 |
attribute::* | 选取当前节点的所有属性。 |
child::text() | 选取当前节点的所有文本子节点。 |
child::node() | 选取当前节点的所有子节点。 |
descendant::book | 选取当前节点的所有 book 后代。 |
ancestor::book | 选择当前节点的所有 book 先辈。 |
ancestor-or-self::book | 选取当前节点的所有 book 先辈以及当前节点(如果此节点是 book 节点) |
child::*/child::price | 选取当前节点的所有 price 孙节点。 |
四、一些函数
1. starts-with函数
获取以xxx开头的元素
例子:xpath(‘//div[stars-with(@class,”test”)]’)
2 contains函数
获取包含xxx的元素
例子:xpath(‘//div[contains(@id,”test”)]’)
3 and
与的关系
例子:xpath(‘//div[contains(@id,”test”) and contains(@id,”title”)]’)
4 text()函数
例子1:xpath(‘//div[contains(text(),”test”)]’)
例子2:xpath(‘//div[@id=”“test]/text()’)
五、一个lxml的xpath示例
# _*_ encoding =utf-8 _*_
from scrapy.selector import Selector
from scrapy.http import HtmlResponse
body ='''
<html>
<head>
<base href='http://example.com/' />
<title>Example website</title>
</head>
<body>
<p>test</p>
<span>good</span>
<div id='images'>
<a href='image1.html'>Name: My image 1 <br /><img src='image1_thumb.jpg' /></a>
<a href='image2.html'>Name: My image 2 <br /><img src='image2_thumb.jpg' /></a>
<a href='image3.html'>Name: My image 3 <br /><img src='image3_thumb.jpg' /></a>
<a href='image4.html'>Name: My image 4 <br /><img src='image4_thumb.jpg' /></a>
<a href='image5.html'>Name: My image 5 <br /><img src='image5_thumb.jpg' /></a>
</div>
<div class="text1">
<span class="righttext">
<a href="//jandan.net/ooxx/page-40#comment-3939483">3939483</a>
</span>
<p><a href="//wx4.sinaimg.cn/large/0076BSS5ly1fukuydd6q8j30k00zkjvw.jpg" target="_blank" class="view_img_link">[查看原图]</a><br>
<img src="http://wx4.sinaimg.cn/mw600/0076BSS5ly1fukuydd6q8j30k00zkjvw.jpg" style="max-width: 480px; max-height: 750px;"></p>
</div>
<div class="text2">
<span class="righttext">
<a href="//jandan.net/ooxx/page-40#comment-3939362">3939362</a></span>
<p><a href="//wx1.sinaimg.cn/large/5d70f687ly1fuio0bjk9aj20mk0s71kx.jpg" target="_blank" class="view_img_link">[查看原图]</a><br>
<img src="http://wx1.sinaimg.cn/mw600/5d70f687ly1fuio0bjk9aj20mk0s71kx.jpg" style="max-width: 480px; max-height: 750px;"></p>
</div>
<div class="text3">
<span class="righttext">
<a href="//jandan.net/ooxx/page-40#comment-3939288">3939288</a></span>
<p><a href="//ww3.sinaimg.cn/large/006XNEY7gy1fukqal7th2j30p00p0jtd.jpg" target="_blank" class="view_img_link">[查看原图]</a><br>
<img src="http://ww3.sinaimg.cn/mw600/006XNEY7gy1fukqal7th2j30p00p0jtd.jpg" style="max-width: 480px; max-height: 750px;"></p>
</div>
</body>
</html>
'''
#Scrapy selector是以 文字(text) 或 TextResponse 构造的 Selector 实例。
#其根据输入的类型自动选择最优的分析方法(XML vs HTML):
spantest =Selector(text=body).xpath('//span/text()').extract()
print(spantest)
#response对象以 .selector 属性提供了一个selector, 您可以随时使用该快捷方法:
response = HtmlResponse(url='http://www.baidu.com', body=body,encoding='UTF-8')
ptest =Selector(response=response).xpath('//p/text()').extract()
print(ptest)
#构建一个XPath来选择title标签内的文字:
title =Selector(text=body).xpath('//title/text()').extract()
print(title)
#由于在response中使用XPath、CSS查询十分普遍,
#因此,Scrapy提供了两个实用的快捷方式: response.xpath() 及 response.css():
csstest =response.css('title::text').extract()
print(csstest)
#现在我们将得到根URL(base URL)和一些图片链接:
basehref =response.xpath('//base/@href').extract()
print(basehref)
basehref2=response.css('base::attr(href)').extract()
print(basehref2)
imagehref =response.xpath('//a[contains(@href, "image")]/@href').extract()
print(imagehref)
imagehref2 =response.css('a[href*=image]::attr(href)').extract()
print(imagehref2)
imagesrc =response.xpath('//a[contains(@href, "image")]/img/@src').extract()
print(imagesrc)
imagesrc2 =response.css('a[href*=image] img::attr(src)').extract()
print(imagesrc2)
#选择器方法( .xpath() or .css() )返回相同类型的选择器列表,因此你也可以对这些选择器调用选择器方法。
links = response.xpath('//a[contains(@href, "image")]')
print(links.extract())
for index, link in enumerate(links):
args = (index, link.xpath('@href').extract(), link.xpath('img/@src').extract())
print('Link number %d points to url %s and image %s' % args)
#结合正则表达式使用选择器(selectors)
#Selector 也有一个 .re() 方法,用来通过正则表达式来提取数据。
#然而,不同于使用 .xpath() 或者 .css() 方法, .re() 方法返回unicode字符串的列表。所以你无法构造嵌套式的 .re() 调用。
re =response.xpath('//a[contains(@href, "image")]/text()').re(r'Name:\s*(.*)')
print(re)
print('==================================')
#使用相对XPaths
#记住如果你使用嵌套的选择器,并使用起始为 / 的XPath,
#那么该XPath将对文档使用绝对路径,而且对于你调用的 Selector 不是相对路径。
divs = response.xpath('//div')
for p in divs.xpath('.//p'): # 注意 .//p XPath的点前缀
print(p.extract())
print('==================================')
#另一种常见的情况将是提取所有直系 <p> 的结果
for p in divs.xpath('p'):
print(p.extract())
print('==================================')
#指定div的class选取图片
imagesrc =response.xpath('//div[contains(@class,"text1")]/p/img/@src').extract()
print(imagesrc)
运行结果:
六、常用表达式列表
常用表达式实例:
表达式 | 说明 |
---|---|
/ | Document Root文档根. |
/* | 选择文档根下面的所有元素节点,即根节点(XML文档只有一个根节点) |
/node() | 根元素下所有的节点(包括文本节点,注释节点等) |
/text() | 查找文档根节点下的所有文本节点 |
/messages/message | messages节点下的所有message节点 |
/messages/message[1] | messages节点下的第一个message节点 |
/messages/message[1]/self::node() | 第一个message节点(self轴表示自身,node()表示选择所有节点) |
/messages/message[1]/node() | 第一个message节点下的所有子节点 |
/messages/message[1]/*[last()] | 第一个message节点的最后一个子节点 |
/messages/message[1]/[last()] | Error,谓词前必须是节点或节点集 |
/messages/message[1]/node()[last()] | 第一个message节点的最后一个子节点 |
/messages/message[1]/text() | 第一个message节点的所有子节点 |
/messages/message[1]//text() | 第一个message节点下递归下降查找所有的文本节点(无限深度) |
/messages/message[1] /child::node() /messages/message[1] /node() /messages/message[position()=1] /node()//message[@id=1] /node() | 第一个message节点下的所有子节点 |
//message[@id=1] //child::node() | 递归所有子节点(无限深度) |
//message[position()=1]/node() | 选择id=1的message节点以及id=0的message节点 |
/messages/message[1] /parent::* | Messages节点 |
/messages/message[1]/body/attachments/parent::node() | |
/messages/message[1]/body/attachments/parent::* /messages/message[1]/body/attachments/.. | attachments节点的父节点。父节点只有一个,所以node()和* 返回结果一样(..也表示父节点. 表示自身节点) |
//message[@id=0]/ancestor::* | Ancestor轴表示所有的祖辈,父,祖父等。向上递归 |
//message[@id=0]/ancestor-or-self::* | 向上递归,包含自身 |
//message[@id=0]/ancestor::node() | 对比使用*,多一个文档根元素(Document root) |
/messages/message[1]/descendant::node()//messages/message[1]//node() | 递归下降查找message节点的所有节点 |
/messages/message[1]/sender/following::* | 查找第一个message节点的sender节点后的所有同级节点,并对每一个同级节点递归向下查找。 |
//message[@id=1]/sender/following-sibling::* | 查找id=1的message节点的sender节点的所有后续的同级节点。 |
//message[@id=1]/datetime/@date | 查找id=1的message节点的datetime节点的date属性 |
//message[@id=1]/datetime[@date] //message/datetime[attribute::date] | 查找id=1的message节点的所有含有date属性的datetime节点 |
//message[datetime] | 查找所有含有datetime节点的message节点 |
//message/datetime/attribute::* //message/datetime/attribute::node() | |
//message/datetime/@* | 返回message节点下datetime节点的所有属性节点 |
//message/datetime[attribute::*] //message/datetime[attribute::node()] | |
//message/datetime[@*] //message/datetime[@node()] | 选择所有含有属性的datetime节点 |
//attribute::* | 选择根节点下的所有属性节点 |
//message[@id=0]/body/preceding::node() | 顺序选择body节点所在节点前的所有同级节点。(查找顺序为:先找到body节点的顶级节点(根节点),得到根节点标签前的所有同级节点,执行完成后继续向下一级,顺序得到该节点标签前的所有同级节点,依次类推。)注意:查找同级节点是顺序查找,而不是递归查找。 |
//message[@id=0]/body/preceding-sibling::node() | 顺序查找body标签前的所有同级节点。(和上例一个最大的区别是:不从最顶层开始到body节点逐层查找。我们可以理解成少了一个循环,而只查找当前节点前的同级节点) |
//message[@id=1]//*[namespace::amazon] | 查找id=1的所有message节点下的所有命名空间为amazon的节点。 |
//namespace::* | 文档中的所有的命名空间节点。(包括默认命名空间xmlns:xml) |
//message[@id=0]//books/*[local-name()='book'] | 选择books下的所有的book节点,注意:由于book节点定义了命名空间<amazone:book>.若写成//message[@id=0]//books/book则查找不出任何节点。 |
//message[@id=0]//books/*[local-name()='book' and namespace-uri()='http://www.amazon.com/books/schema'] | 选择books下的所有的book节点,(节点名和命名空间都匹配) |
//message[@id=0]//books/*[local-name()='book'][year>2006] | 选择year节点值>2006的book节点 |
//message[@id=0]//books/*[local-name()='book'][1]/year>2006 | 指示第一个book节点的year节点值是否大于2006.返回xs:boolean: true |
内容参考:http://www.runoob.com/xpath/xpath-tutorial.html
参考:https://scrapy-chs.readthedocs.io/zh_CN/0.24/topics/selectors.html#topics-selectors
也可以学习下简书其他作者的文章:https://www.jianshu.com/p/1575db75670f