Xpath知识讲解

Xpath的使用

导入依赖库

from lxml import etree 
selector = etree.HTML(html)     (html为目标网站文本)
// 定位根节点
/ 往下层寻找
提取文本内容:/text()
提取属性内容:/@xxxx

提取文本

eg:content = selecort.xpath('//ul[@id="useful"/li/text()'])
提取'ul'下id为useful子目录为'li'里面的文本内容

提取属性

eg: link = selector.xpath('//a/@herf')

Xpath的特殊用法

1.以相同的字符开头

starts-with(@属性名称,属性字符相同部分)
eg:content = selecort.xpath('//div[starts-with(@id,"test")]/text()')
能将div中id以test开头的文本内容提取出来,返回为list

2.标签套标签 string(.)

content = selecort.xpath('//div[@id="test3"]')[0]
info = content.xpath('string(.))
将id为test3下的文本全部提取出来不用分层读取
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,923评论 18 139
  • ==01==区块链世界的捶胸MONMENT 只要2017年在币圈过来的人,一定有无数个让自己捶胸顿足的M...
    耐心的猎人阅读 693评论 2 2
  • “听了音乐,我们可以遥望战场的悲壮,但不要渴望战争” “我是一名教师,每当我听到这首歌的时候,总觉得讲台下坐着数千...
    优秀好评阅读 1,667评论 0 1
  • 岁月沉寂成陌生的剪影,恍惚间也会惊诧自己也会冷峻,行走在人生的路上,一只脚踩在灰烬里,一只脚踩在时光的边缘。 突然...
    尹小美Amy阅读 253评论 0 0