二刷爬虫—XPath

lxml库里的etree模块

etree.HTML() 进行初始化，构造解析对象

etree.tostring() 修正后的HTML代码

etree.parse() 读取文本文件进行解析

parent:: 或.. 选取父节点

@进行属性过滤

text() 文本选取

contains() 属性多值匹配

and等运算符多属性匹配

索引进行按序选择

节点轴：

ancestor:: 祖先

attribute:: 属性

child:: 直接子节点

descendant:: 所有子孙节点

following:: 当前结点之后的所有节点

following-sibling:: 当前结点之后的所有同级结点

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

《Python爬虫开发与项目实践》读书笔记——XPath
XPath XPath 是一门在XML文档中查找信息的语言，被用于在XML文档中通过元素和属性进行导航。不够它也可...
LionelDong阅读 760评论 0赞 1
一、python爬虫基础与html文档解析
爬虫是什么爬虫是一段用来抓取互联网数据的一段程序，给定一个位置（url）为起点，爬虫从这个url开始，爬去互联网上...
zhile_doing阅读 754评论 0赞 0

XPATH、CSS选择器及正则表达式
在爬虫采集数据的过程中，如何定位及匹配数据是必须解决的一项任务。最常用的定位方式有三种：XPATH，CSS选择器及...
han0710阅读 2,238评论 0赞 1
爬虫技术详解（一）- XPath
XPath简介以下摘自维基百科 XPath (XML Path Language) is a query lan...
geekpy阅读 1,954评论 0赞 7
python爬虫里信息提取的核心方法: Beautifulsoup Xpath 正则表达式
20170531 这几天重新拾起了爬虫，算起来有将近5个月不碰python爬虫了。对照着网上的程序和自己以前写的...
八神苍月阅读 14,380评论 3赞 44

1赞2赞

赞赏

手机看全文