5.Scrapy &6.Beautilful Soup爬虫框架【读书笔记-第五章】

《Python3.64网络爬虫实战第二版》

2019-01-07

【Scrapy 爬虫框架】

seketors选择器
-XPath xml选择节点的语言 CSS与特定元素样式关联
Scrapy选择器构建于lxml

XPath期中节点类型
路径表达式

XPath还有.re()方法正则表达式获取
不同于.xpath() 和css()

re()返回unicode字符串列表故而无法嵌套
选择器lxml 故支持一些Exsit扩展

--Pydev插件

html.parser/lxml的html解析/lxml的xml解析/html5lib

通过标签标签属性查找；
且配合第三方解析器威力更大更方便

最后编辑于：2019.01.09 21:06:21

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。