淘宝任意关键词搜索采集商品名称、价格、收货人数等

概要:

基于python实现淘宝任意关键词搜索,采集搜索结果中指定页数的:店铺、店铺地址、价格、收货人数、网址 产品标题。关注公众号“数云智连”,回复“淘宝采集程序”获取下载链接

采集结果数据示例:

一、程序实现步骤

1、打开淘宝搜索页输入关键词搜索;

2、分析翻页链接,提取通用采集链接

第1页:
https://s.taobao.com/search?q={}&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20190331&ie=utf8&bcoffset=6&ntoffset=6&p4ppushleft=1%2C48&s=0

第2页:
https://s.taobao.com/search?q={}&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20190331&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=44

第3页:
https://s.taobao.com/search?q={}&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20190331&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=88
这里可以分析出{}内都是相同的,是对应的关键词;最后的数字跟页数的关系为(n-1)44,所以可以得到通用链接为:
https://s.taobao.com/search?q={}&imgfile=&js=1&stats_click=search_radio_all%3A1&initiative_id=staobaoz_20190331&ie=utf8&bcoffset=3&ntoffset=3&p4ppushleft=1%2C48&s=(n-1)
44

3、解析和爬取单个网页每个商品信息

循环每页每一个商品的数据块,分别提取:店铺、店铺地址、价格、收货人数、网址 产品标题。

4、数据存入excel

采集的数据如下:

二、采集程序使用

1、回复:淘宝采集程序,获取下载链接;

2、根据提示输入需采集的搜索词、需采集页数、cookie

因需登录采集,需用带cookie请求以保证采集到数据

登录淘宝后,浏览器里:按下F12、按下F5刷新(主流的chrome、火狐、360等都有该功能);点击Doc,找到search?q=文件,Headers里可以看到cookie,:后面的文本都复制粘贴进来。

3、运行后,会自动生成"taobao.xlsx"的excel文件,存储采集结果

二、程序运行环境
因程序用python写的,需要python的运行环境
1、请务必是win7 以上64位系统,xp安装python环境非常麻烦,还会经常出现意想不到的安装包不可用的错误;

2、安装python 3以上版本及以下包:
pip install json
pip install requests
pip install pandas

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • 常见网站的多页情况 一、 翻页规律为1、2、3、4等递增变化时,翻页规律为每页增加1,则其多页采集时,以10页为...
    造数科技阅读 2,122评论 0 0
  • https://www.lfd.uci.edu/~gohlke/pythonlibs/#lxml 下载即可。 安装...
    怂恿的大脑阅读 1,310评论 0 7
  • 知乎:做户外直播都会用到哪些设备? https://www.zhihu.com/question/36463031...
    由里世界阅读 648评论 0 2
  • 在以前,其实我一直都不懂千纸鹤.是什么意思,虽折过很多次,却只感觉是.一般的兴趣。现在再折千纸鹤,当我再把...
    TRUST_cdc6阅读 194评论 0 0
  • 一个交易的生命周期要经历以下几个过程:● 构造一笔交易(这里的交易要包含交易双方的地址、以太币数量、时间戳、签名等...
    谷歌派阅读 2,044评论 1 1