采集结果数据示例:概要:
基于python实现淘宝任意关键词搜索,采集搜索结果中指定页数的:店铺、店铺地址、价格、收货人数、网址 产品标题。关注公众号“数云智连”,回复“淘宝采集程序”获取下载链接。
一、程序实现步骤
1、打开淘宝搜索页输入关键词搜索;第1页:
https://s.taobao.com/search?q={}&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20190331&ie=utf8&bcoffset=6&ntoffset=6&p4ppushleft=1%2C48&s=0
第2页:
https://s.taobao.com/search?q={}&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20190331&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=44
第3页:
https://s.taobao.com/search?q={}&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20190331&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=88
这里可以分析出{}内都是相同的,是对应的关键词;最后的数字跟页数的关系为(n-1)44,所以可以得到通用链接为:
https://s.taobao.com/search?q={}&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20190331&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=(n-1)44
3、解析和爬取单个网页每个商品信息
4、数据存入excel
二、采集程序使用
1、回复:淘宝采集程序,获取下载链接;
2、根据提示输入需采集的搜索词、需采集页数、cookie因需登录采集,需用带cookie请求以保证采集到数据
登录淘宝后,浏览器里:按下F12、按下F5刷新(主流的chrome、火狐、360等都有该功能);点击Doc,找到search?q=文件,Headers里可以看到cookie,:后面的文本都复制粘贴进来。二、程序运行环境
因程序用python写的,需要python的运行环境
1、请务必是win7 以上64位系统,xp安装python环境非常麻烦,还会经常出现意想不到的安装包不可用的错误;
2、安装python 3以上版本及以下包:
pip install json
pip install requests
pip install pandas