scrapy爬虫时如何利用xpath爬取某个div里所有p的内容

当我们想爬取div class="articlebody"下p中所有文本的时候，如果这样写

item['body'] = (response.xpath('//div[@class="articleBody"]/ptext()').extract()[0])

会发现仅仅是第一个p中的内容，而不是所有的，此时应该利用的是for循环。

divs=response.xpath('//div[@class="articleBody"]')

body=""

for p in divs.xpath('.//p/text()'):

body=body+ p.extract().strip()

item['body']=body

最后编辑于：2017.12.03 05:58:33

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

scrapy学习笔记(有示例版）
scrapy学习笔记(有示例版）我的博客 scrapy学习笔记1.使用scrapy1.1创建工程1.2创建爬虫模...
陈思煜阅读 13,172评论 4赞 46
Spring Cloud
Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具（例如配置管理，服务发现，断路器，智...
卡卡罗2017阅读 136,778评论 19赞 139

python爬虫里信息提取的核心方法: Beautifulsoup Xpath 正则表达式
20170531 这几天重新拾起了爬虫，算起来有将近5个月不碰python爬虫了。对照着网上的程序和自己以前写的...
八神苍月阅读 14,401评论 3赞 44
Imperfect Memory（2）
这个似乎是不够的，记忆容易受到外部思想的玷污。记忆专家伊丽莎白洛夫展示给孩子们一个电影，然后问他们，“你看到一只熊...
杨秀华阅读 438评论 0赞 1
好产品要有好的用法
昨天写到我试用原液。当自己试用时才发现，从别人口中听到的原液给我的“瘦”脸概念，和自己用后的“瘦”脸是两码事儿。...
langmengke阅读 561评论 0赞 0

赞1赞

赞赏

手机看全文