震惊!C杯的你,已经超过85%的人了!

 女票觉得自己胸小,凭空安慰不了,只好找数据说话。

本次爬取了京东商城5000余种bra,共计24万评论。(爬取步骤在文末)

得出以下结果:

一、只要是C杯就超过了85%的人!

罩杯比例图

1)B杯人数占了近70%,人群庞大,所以B杯的妹子不要自卑,你是千千万人群中的一个,该自卑的应该的A(斜眼)

2)D杯以上只占了4%,所以电视电影里标配的D估计和标配20CM一样稀有。

3)其实罩杯大并不代表大,那什么是大呢?



不用我多说了吧



二、bra最受欢迎的7种配色,黑色最流行!

1)在24万评论中,我们筛选出了数量超过1万的配色,其中黑色以56295拔得头筹。当然并不是纯黑色bra,因为有这些款式:

2)其他6色势均力敌,粉色和红色很多可能是一个阵营的。

3)其实以上7大配色只占了60%,剩下40%有以下配色,这些配色销量为什么还辣么多。。

4)所以!根据数据显示,我决定做以下这款bra,肯定能卖进福布斯(手动斜眼)



注:1)样本小,2)尺码大的女士可能会更加倾向于实体店购,3)只买不评论等原因,数据不够准确,仅供娱乐。





能看到这里的帅哥美女,我告诉你这篇文章真正的标题的是:

Scrapy框架爬取京东商城商品评论

一、爬取目的

爬取京东商城内衣-文胸频道前85页商品评论

二、主要思路

1)设置起始页(按照销量排序),遍历到85页,每页60个商品信息,共计5100个。

2)因为评论最多只是显示100页(10个/页),85页后的商品评价已经很少了,所以估算评论会在30万左右

3)找到加载评论的js,选择本商品评论,以及时间排序

4)接口JS里,找到最大页,构造并遍历请求

5)输出到MYSQL


三、遇到的一些问题

1)输出缺少输出数据

解决:css遍历需要选定了所有需要遍历的标签


2)存储到数据库的数据有重复

一步步排查

输出并无问题

解决:原来是数据插入mysql时重复,应该是Twisted异步操作太快,浅拷贝还么来得及插入就被替换了,将写入步骤修改为深拷贝,问题解决

3)评论输出少了第一页

解决:因为两次scrapy.Request相同的网址,导致去重机制生效,把其中一项去掉用不到的参数。

github地址:https://github.com/GuoBinxs

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 176,691评论 25 709
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 14,755评论 4 61
  • 望眼欲穿 张书云 昨日的卿卿我我, 今日的悄然离去。 我的世界太狭小, 你的世界很精彩。 我日日望眼欲穿, 君在外...
    qiushui__lianli阅读 1,711评论 0 2
  • 什么是 HTTPS? HTTPS (基于安全套接字层的超文本传输协议 或者是 HTTP over SSL) 是一个...
    一个人一匹马阅读 3,405评论 0 2
  • 你总不能想着大哭一场就解决所有的不开心。
    孤独得圆满阅读 968评论 0 0

友情链接更多精彩内容