5.Scrapy &6.Beautilful Soup爬虫框架【读书笔记-第五章】

《Python3.64网络爬虫实战第二版》

清华大学出版社 胡松涛著

2019-01-07

【Scrapy 爬虫框架】

5.1 安装Scrapy

pip

5.1.3vim编辑器

5.2 Scrapy选择器XPath与CSS

seketors选择器
-XPath xml选择节点的语言 CSS与特定元素样式关联
Scrapy选择器构建于lxml

5.2.1 XPath选择器

XPath期中节点类型
路径表达式

5.2.2 CSS选择器

5.2.3 其他选择器

XPath还有.re()方法正则表达式获取
不同于.xpath() 和css()

re()返回unicode字符串列表 故而无法嵌套
选择器lxml 故支持一些Exsit扩展

【Beautilful Soup 】

6.1 安装Beautilful Soup

pip - - https://blog.csdn.net/u013258415/article/details/78974665

6.1.3Eclipse

--Pydev插件

6.2 Beautilful Soup解析器

6.2.1 bs4解析器选择

html.parser/lxml的html解析/lxml的xml解析/html5lib

6.2.3 使用bs4过滤

通过标签 标签属性查找;
且配合第三方解析器 威力更大更方便

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

友情链接更多精彩内容