什么是爬虫
请求网站 并 提取数据 的 自动化程序
爬虫的基本流程
- 发起请求(Request)
- 响应(Response)
- 解析
- 保存数据
Request
- 请求方式:get、post
- 请求url
- 请求头
- 请求题(post用)
Response
- 响应状态
- 响应头
- 响应体
解析方式
- 直接解析
- Json解析
- 正则
- BeautifulSoup、PyQuery、Xpath等
爬虫可以抓什么数据
- 网页文本
- 图片
- 视频
- 其它
Js渲染问题
- 分析Ajax请求
- Selenuim/WebDriver
- Splash
- PyV8、Ghost.py
保存数据
- 文本
- 关系型数据库
- 非关系型数据库
- 二进制文件