1. 案例 多页数据
存储json格式, 存储数据库
思路:数据获取、数据提取、数据存储,封装函数执行。
(1)数据获取
输入:url 得到:html_etree
(2)数据提取
输入:html_etree 输出:列表 :包含joke信息 (进行数据清洗)
提取当前页数据
数据清洗
获取下一页数据
(3)数据存储:
输入:列表型的字典 输出: 可以没有,也可以是布尔值
1)存储为json格式:
2)存入数据库
(4)在本文档里进行执行
执行本文件的时候__name__ =='__main__'
其他文件调用本模块时,__name__ =='__name__'
2. 更好用xpath提取内容的2种方式
(1)网页上获取xpath完整路径
找到想要内容,右击---》copy ---》copy xpath #全局找//
/ full xpath # 全部的路径
注:获取的为精准位置,兼容性不强,不通用,找到后可以改
(2)xpath 插件
- Google浏览器的插件
- 安装离线的插件包
点击Google浏览器右边...----》 更多工具---》扩展程序-----》打开页面右上角开发模式---》把xpath helper 拖进去 # 淘宝代理 镜像源
3. 专业版 pycharm 数据库的使用
右边有database