1. 案例多页数据

存储json格式，存储数据库

思路：数据获取、数据提取、数据存储，封装函数执行。

（1）数据获取

输入：url 得到：html_etree

（2）数据提取

输入：html_etree 输出：列表：包含joke信息（进行数据清洗）

提取当前页数据

数据清洗

获取下一页数据

（3）数据存储：

输入：列表型的字典输出：可以没有，也可以是布尔值

1）存储为json格式：

2）存入数据库

（4）在本文档里进行执行

执行本文件的时候__name__ =='__main__'

其他文件调用本模块时，__name__ =='__name__'

2. 更好用xpath提取内容的2种方式

（1）网页上获取xpath完整路径

找到想要内容，右击---》copy ---》copy xpath #全局找//

/ full xpath # 全部的路径

注：获取的为精准位置，兼容性不强，不通用，找到后可以改

（2）xpath 插件

- Google浏览器的插件

- 安装离线的插件包

点击Google浏览器右边...----》更多工具---》扩展程序-----》打开页面右上角开发模式---》把xpath helper 拖进去 # 淘宝代理镜像源

镜像源|淘宝常用镜像源 | Rainbird的个人博客

3. 专业版 pycharm 数据库的使用

右边有database

2.5.2 爬虫数据提取存储 xpath插件

2.5.2 爬虫数据提取存储 xpath插件

1. 案例多页数据

（1）数据获取

（2）数据提取

（3）数据存储：

1）存储为json格式：

2）存入数据库

（4）在本文档里进行执行

2. 更好用xpath提取内容的2种方式

（1）网页上获取xpath完整路径

（2）xpath 插件

2.5.2 爬虫 数据提取 存储 xpath插件

1. 案例 多页数据

（1）数据获取

（2）数据提取

（3）数据存储：

1）存储为json格式：

2）存入数据库

（4）在本文档里进行执行

2. 更好用xpath提取内容的2种方式

（1）网页上获取xpath完整路径

（2）xpath 插件

2.5.2 爬虫数据提取存储 xpath插件

1. 案例多页数据