Web Scraper教程(六)爬虫进阶之唯品会的商品满意度爬取

进阶知识点:

除爬取当前页面信息外,还可点击进入二级页面进行信息爬取

一、在唯品会找到口碑爆棚的低价包包

唯品会是女生爱逛的品牌折扣网站,品类覆盖服饰鞋包、美妆、母婴、居家等。去折扣网站,最担心的是商品质量和口碑如何,所以关心的重点一个是价格是否在可承受范围内,另一个是买过的人给出的评价怎么样。

以「COACH品牌特卖馆」为例,重点爬取:折后价、折扣度和口碑(用户满意度)。

从下图中可以看到,特卖馆内仅呈现包包的折后价和折扣度,并没有口碑的展示。

特卖馆包包

满意度要在点击进入包包详情页后,才能在「全部口碑」中找到。

二级页面满意度

二、爬取唯品会包包信息

1. 在「COACH品牌特卖馆」中,创建Sitemap

Sitemap name: weipinhui
Start URL:https://list.vip.com/brand.html?sn=10025557&refer_url=https%3A%2F%2Fcategory.vip.com%2Fhome

2.建立滚动选择器,让页面完全加载

页面内的信息要在滚动条下拉时才会完全加载,所以要先建立滚动到底的选择器,加载出全部信息,才能爬取完整信息。

点击Add new selector
Id: scrolldown
Type: Element scroll down
点击Select: 分别点选前两个包包最外围的方形元素
点击Multiple
点击Done selecting!完成建立

3.建立内容爬取选择器

建立bags选择器,作为字段容器
如果对于这一步不理解,可以查看教程三的图示
点击Add new selector
Id: bags
Type: Element
点击Select: 分别点选前两个包包最外围的方形元素
点击Multiple
点击Done selecting!完成建立

4. 爬取当前页信息的同时,建立二级页面链接

爬取当前页面信息
点击bags选择器进入目录内,分别为标题(title)、折后价(price)、折扣度(discount)建立选择器

建立二级页面链接
点击Add new selector
Id: link
Type: Link
点击Select: 点选图片即可
点击Done selecting!完成建立

5. 在二级页面内爬取满意度

在特卖馆页面中,点击包包进入商品详情页。
在详情页内,需要先点击「全部口碑」才能显示出满意度,进行爬取时,也要按照实际操作的顺序进行设置。

建立点击「全部口碑」的选择器
点击link选择器,进入目录页,开始建立选择器
点击Add new selector
Id: click
Type: Element click
Selector: 点击「Select」,点选「全部口碑」
Click Selector: 点击「Select」,点选「全部口碑」
点击Done selecting!完成建立

建立爬取满意度的选择器
在包包的详情页面,点击进入「全部口碑」标签页,开始建立选择器
点击Add new selector
Id: koubei
Type: Text
点击Done selecting!完成建立

Web Scraper设置已经全部完成,可以开始执行爬虫程序并导出数据了。
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。