女票觉得自己胸小,凭空安慰不了,只好找数据说话。
本次爬取了京东商城5000余种bra,共计24万评论。(爬取步骤在文末)
得出以下结果:
一、只要是C杯就超过了85%的人!
1)B杯人数占了近70%,人群庞大,所以B杯的妹子不要自卑,你是千千万人群中的一个,该自卑的应该的A(斜眼)
2)D杯以上只占了4%,所以电视电影里标配的D估计和标配20CM一样稀有。
3)其实罩杯大并不代表大,那什么是大呢?
不用我多说了吧
二、bra最受欢迎的7种配色,黑色最流行!
1)在24万评论中,我们筛选出了数量超过1万的配色,其中黑色以56295拔得头筹。当然并不是纯黑色bra,因为有这些款式:
2)其他6色势均力敌,粉色和红色很多可能是一个阵营的。
3)其实以上7大配色只占了60%,剩下40%有以下配色,这些配色销量为什么还辣么多。。
4)所以!根据数据显示,我决定做以下这款bra,肯定能卖进福布斯(手动斜眼)
注:1)样本小,2)尺码大的女士可能会更加倾向于实体店购,3)只买不评论等原因,数据不够准确,仅供娱乐。
能看到这里的帅哥美女,我告诉你这篇文章真正的标题的是:
Scrapy框架爬取京东商城商品评论
一、爬取目的
爬取京东商城内衣-文胸频道前85页商品评论
二、主要思路
1)设置起始页(按照销量排序),遍历到85页,每页60个商品信息,共计5100个。
2)因为评论最多只是显示100页(10个/页),85页后的商品评价已经很少了,所以估算评论会在30万左右
3)找到加载评论的js,选择本商品评论,以及时间排序
4)接口JS里,找到最大页,构造并遍历请求
5)输出到MYSQL
三、遇到的一些问题
1)输出缺少输出数据
解决:css遍历需要选定了所有需要遍历的标签
2)存储到数据库的数据有重复
一步步排查
输出并无问题
解决:原来是数据插入mysql时重复,应该是Twisted异步操作太快,浅拷贝还么来得及插入就被替换了,将写入步骤修改为深拷贝,问题解决
3)评论输出少了第一页
解决:因为两次scrapy.Request相同的网址,导致去重机制生效,把其中一项去掉用不到的参数。
github地址:https://github.com/GuoBinxs