其他重要声明:本文章仅用于学习与分享,任何从事用于非法行为所造成的后果请自负。
打开淘宝,按F12进入开发者工具,或者右击点开检查,第一步先不要急着敲代码,先在源代码里面找一下看看我们要的数据在哪里
然后这么多请求谁也不知道哪个里面有我们需要的数据,那就只能一个一个的点进去找
根据页面上已有的信息查找,我这边查“广东”这个数据,可以查出来就证明里面有我们需要的数据了,既然找到数据那接下来就好办了 ,直接上代码:首先导入需要的模块
写入需要爬取网址的url,以及爬虫伪装的headers(user-agent,以及cookie),cookie是有时效性的,所有过段时间就要换,
接下来发送请求,看看数据有没有抓到
很显然已经获取到了,接下来就是数据清洗了,利用正则匹配需要的数据,然后将他转换成json格式就可以一层一层的拨开再取出需要的数据
代码实现:
最后一步就是保存数据了,这里我是将数据保存到excel,毕竟是爬着玩的随便保存就行了,也可以保存到其他地方比如数据库将爬取下来的数据保存到一个列表,循环一个一个储存进去就行了
如果要进一步爬取商品信息的话按照上面的操作再请求已经爬取到url进行数据清洗进行了
要翻页的话上面url最后一段进行循环加规定的参数就行了