2.5.2 爬虫 数据提取 存储 xpath插件

1. 案例 多页数据 

存储json格式, 存储数据库

思路:数据获取、数据提取、数据存储,封装函数执行。

(1)数据获取  

输入:url 得到:html_etree


(2)数据提取   

输入:html_etree  输出:列表 :包含joke信息   (进行数据清洗)

提取当前页数据

数据清洗

获取下一页数据

(3)数据存储:

输入:列表型的字典 输出: 可以没有,也可以是布尔值

1)存储为json格式:

2)存入数据库

(4)在本文档里进行执行

 执行本文件的时候__name__ =='__main__' 

其他文件调用本模块时,__name__ =='__name__' 

2. 更好用xpath提取内容的2种方式

(1)网页上获取xpath完整路径

找到想要内容,右击---》copy ---》copy xpath #全局找//

/ full xpath  # 全部的路径

注:获取的为精准位置,兼容性不强,不通用,找到后可以改

(2)xpath 插件

- Google浏览器的插件

- 安装离线的插件包

点击Google浏览器右边...----》 更多工具---》扩展程序-----》打开页面右上角开发模式---》把xpath helper 拖进去  # 淘宝代理 镜像源

镜像源|淘宝常用镜像源 | Rainbird的个人博客

3. 专业版 pycharm 数据库的使用

    右边有database

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。