scrapy 跟 selenium 安装 就不 介绍 了 直接开始分析页面
下面地址为 淘宝店铺 :https://gongzhuxiaowu.taobao.com/search.htm
没有打广告的意思 --随便找的
1. 对页面进行分析
从图中找到需要爬取的内容 分别为 物品的名字 价格 以及销售多少
谷歌浏览器 f12 对页面进行分析 发现他在 div/dl/dd/的a标签里
所以用xpath 提取页面(xpath 不会的请自行百度)
response.xpath('//dd[@class="detail"]/a[@class="item-name J_TGoldData"]/text()').extract()
这里是从dd下开始查询 不知道为何从div下查找是找不到的 所以只能从 dd下查找
然后找到价格 与 已出售
可以看出 名称 跟 价格 以及 出售是在dd 下的 所以 获取价格 跟 已售 分别是
response.xpath('//dd[@class="detail"]/div[@class="attribute"]/div[@class="cprice-area"]/span[@class="c-price"]/text()').extract()')
response.xpath('//dd[@class="detail"]/div[@class="attribute"]/div[@class="sale-area"]/span[@class="sale-num"]/text()').extract()
明天写循环 今天先爬一个页面 明天完善爬取所有
创建数据库表
DROP TABLE IF EXISTS `tianmao`;
CREATE TABLE `tianmao` (
`id` int(10) NOT NULL AUTO_INCREMENT,
`name` varchar(100) DEFAULT NULL,
`price` int(50) DEFAULT NULL,
`sold` int(100) DEFAULT NULL,
PRIMARY KEY (`id`)
) ENGINE=MyISAM DEFAULT CHARSET=utf8;
spides下 taobao.py
中间件 用来爬取动态数据 使用selenium
settings
在pipelines.py 实现插入数据库