不写代码,怎么用web scraper爬取京东商品多级页面的数据?

最近打算做个关于手机推荐的分析,以京东在售手机为样本。话说以前也爬过京东的数据,但是二级页面选择器类型都是简单的text,本次想要抓取二级页面中的店铺名称、好评率和评价标签,页面需要滚动下拉才能显示完全的数据,因此涉及到在二级页面中element sroll dowm的使用。链接地址:【手机手机手机】价格_图片_品牌_怎么样-京东商城

一、分析网站规则

1、起始页面的数据可以显示完全

2、分页时,网址不变化,需要click点击翻页

3、从起始页面link进入二级页面后,需要滚动下拉才能显示完整数据

因此确定抓取数据的方法:element click+link+element sroll down+text

二、sitemap建立

从图中可看出,我设定了list、link、sroll down三个选择器为串联关系,其中scroll down是为了滚动下拉辅助显示数据,其余子选择器类型均为text,为真正抓取数据的子选择器,抓取数据维度有手机名称、价格、评价人数、店铺名、好评率、评价标签6个方面的信息。

需要注意的是:scroll down中必须设置delay,推荐2000ms,我刚开始这里没有设置delay导致好评率和评价标签没爬到,就跳转到下个页面了。

代码如下:

{"startUrl":"https://www.jd.com/chanpin/127371.html","selectors":[{"parentSelectors":["_root"],"type":"SelectorElementClick","multiple":true,"id":"list","selector":"div.gl-i-wrap","delay":"2000","clickElementSelector":"a.pn-next em","clickElementUniquenessType":"uniqueCSSSelector","clickType":"clickMore","discardInitialElements":false},{"parentSelectors":["list"],"type":"SelectorText","multiple":false,"id":"price","selector":"div.p-price","regex":"","delay":""},{"parentSelectors":["list"],"type":"SelectorText","multiple":false,"id":"pingjianum","selector":"div.p-commit","regex":"","delay":""},{"parentSelectors":["list"],"type":"SelectorLink","multiple":false,"id":"link","selector":"div.p-name a","delay":""},{"parentSelectors":["link"],"type":"SelectorElementScroll","multiple":false,"id":"scroll down","selector":"div#J-global-toolbar","delay":"2000"},{"parentSelectors":["link"],"type":"SelectorText","multiple":false,"id":"store","selector":"div.popbox-inner div.mt","regex":"","delay":""},{"parentSelectors":["link"],"type":"SelectorText","multiple":false,"id":"percent","selector":"div.comment-percent","regex":"","delay":""},{"parentSelectors":["link"],"type":"SelectorText","multiple":false,"id":"label","selector":"div.tag-list","regex":"","delay":""}],"_id":"shouji2"}

三、数据预览

设定好参数后就可以坐等结果了,预览如下:

手机分析过程请关注后续发布哦~~~

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容

  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 135,302评论 19 139
  • 一、抓取公众号标题、时间、内容链接 {"_id":"gongzhonghao","startUrl":["http...
    明白1阅读 7,202评论 1 6
  • mean to add the formatted="false" attribute?.[ 46% 47325/...
    ProZoom阅读 7,588评论 0 3
  • —1— 今晚和一大学里认识的男性好友微信闲聊。他调侃自己成了社会的夹心层,回不去乡村也进不了城市。 虽然刚刚毕业就...
    少女小小渔阅读 2,720评论 0 2
  • 今天第二次来艺圃了。没想到这次小小的院子挤了这么多人,熙熙攘攘,还像极了湖心的锦鲤。 这次我们也是四人来的,上次只...
    日出东方天刚晓阅读 1,579评论 0 0