python爬虫day-16（解析库-XPath）

个人学习笔记，方便自己查阅，仅供参考，欢迎交流

解析库：XPath、Beautiful Soup、pyquery

使用正则表达式提取页面信息不方便，所有要使用解析库提高效率。

XPath

1.概述

对于网页的节点来说，它可以定义 id class 或其他属性而且节点之间还有层次关系，在网
中可以通过 XPath css 选择器来定位一个或多个节点那么，在页面解析时，利用 XPath css
选择器来提取某个节点，然后再调用相应方法获取它的正文内容或者属性，不就可以提取我们想要的
任意信息了吗？

2.常用规则

3.实例

4.所有节点

5.子节点

6.父节点

7.属性匹配

8.文本获取

9.属性获取

10.属性多值匹配

11.多属性匹配

12.按序选择

13.节点轴选择

推荐阅读更多精彩内容

深入浅出爬虫之道： Python、Golang与GraphQuery的对比
本文将分别使用 Python ，Golang 以及 GraphQuery 来解析某网站的素材详情页面，这个页面...
Ox1系统管理员阅读 6,507评论 0赞 10
三大解析库的使用
写在前面的话：我们前面学习了正则，但是正则是个很繁琐的东西，一旦写错，就要匹配失败，我们还要不断的调试，对于一个网...
小新你蜡笔呢阅读 6,138评论 1赞 7
行动复盘2/18-2/25
#行动复盘2月18到2月25 上周任务 1新概念和心理学，今日事今日毕。心理学周末做复盘 2音标课每天5个音标，周...
何丹的小世界阅读 1,872评论 0赞 0
文案练习第87天——关于物质
房子从物质需求逐渐变成心理需求当物质上升到一定层面所有人都争相追捧它变得稀有而昂贵透支掉物质本身的价值...
码字赚钱阅读 4,500评论 0赞 1
《在路上·次第花开》48. 谁不想面朝大海，看春暖花开呢？
01. 阳光灿烂的日子，在李同学家后院山上，拿着画笔画那些怒放的野花。四周安静极了，偶尔听到熟透的苹果或梨子掉落在...
生凌君君阅读 2,994评论 2赞 4

2赞3赞

赞赏

手机看全文