一. 核心:
1.selenium:
python包,模拟人操作浏览器获取数据,支持等待某元素加载完,支持模拟点击翻页等,速度慢;
2.request:
python自带的url访问功能模块,容易被封,速度快;
二. 所需知识:
1.xpath:
网站的结构定位方式,即html路径;
2.sql:
数据库交互语句,因为自动化爬虫需把爬取所得的数据载入数据库;
三. 相关工具:
1.浏览器:chrome;
2.驱动:chromedriver;chromedriver下载
1.selenium:
python包,模拟人操作浏览器获取数据,支持等待某元素加载完,支持模拟点击翻页等,速度慢;
2.request:
python自带的url访问功能模块,容易被封,速度快;
1.xpath:
网站的结构定位方式,即html路径;
2.sql:
数据库交互语句,因为自动化爬虫需把爬取所得的数据载入数据库;
1.浏览器:chrome;
2.驱动:chromedriver;chromedriver下载