xpath的高级用法：获取标签下的所有文本，包括子标签下的文本；

from lxml import etree
tree = etree.HTML(content)
object = tree.xpath('xpath规则') .........得到匹配对象
核心用法：
content = object.xpath('string(.)') ............返回字符串
content = content.replace('\n','').replace(' ','') ..过滤掉换行和空格

应用场景：很多时候网页会给一段文字加上<em>,<b>,<span>标签；来实现对一段文本内不同文字样式的操作，但是这对爬虫就不大友好了，需要，需要更为复杂的匹配规则和信息过滤；

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

lxml 学习笔记
人生苦短，我用Python。起初，这篇文章是打算来写 XPath 的，可是后来一想，我需要的仅是 XPath 的...
Moscow1147阅读 20,930评论 1赞 14
python爬虫里信息提取的核心方法: Beautifulsoup Xpath 正则表达式
20170531 这几天重新拾起了爬虫，算起来有将近5个月不碰python爬虫了。对照着网上的程序和自己以前写的...
八神苍月阅读 14,803评论 3赞 44
xpath用法
···lxml用法源自 lxml python 官方文档，更多内容请直接参阅官方文档，本文对其进行翻译与整理。lx...
小丰丰_72a2阅读 4,583评论 0赞 1
Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 135,307评论 19赞 139
外婆
外婆好像是罹患肝癌了，一家人都瞒着她真实的病情，蒙在鼓里的她觉得自己压根没得什么大病。做完手术以后坚信自己一定会好...
重欢喜阅读 2,435评论 0赞 2

4赞5赞

赞赏

手机看全文