登录注册写文章

震惊！C杯的你，已经超过85%的人了！

震惊！C杯的你，已经超过85%的人了！

~~女票觉得自己胸小，凭空安慰不了，只好找数据说话。~~

本次爬取了京东商城5000余种bra，共计24万评论。（爬取步骤在文末）

得出以下结果：

一、只要是C杯就超过了85%的人！

罩杯比例图

1）B杯人数占了近70%，人群庞大，所以B杯的妹子不要自卑，你是千千万人群中的一个，该自卑的应该的A（斜眼）

2）D杯以上只占了4%，所以电视电影里标配的D估计和标配20CM一样稀有。

3）其实罩杯大并不代表大，那什么是大呢？

不用我多说了吧

二、bra最受欢迎的7种配色，黑色最流行！

1）在24万评论中，我们筛选出了数量超过1万的配色，其中黑色以56295拔得头筹。当然并不是纯黑色bra，因为有这些款式：

2）其他6色势均力敌，粉色和红色很多可能是一个阵营的。

3）其实以上7大配色只占了60%，剩下40%有以下配色，这些配色销量为什么还辣么多。。

4）所以！根据数据显示，我决定做以下这款bra，肯定能卖进福布斯（手动斜眼）

注：1）样本小，2）尺码大的女士可能会更加倾向于实体店购，3）只买不评论等原因，数据不够准确，仅供娱乐。

能看到这里的帅哥美女，我告诉你这篇文章真正的标题的是：

Scrapy框架爬取京东商城商品评论

一、爬取目的

爬取京东商城内衣-文胸频道前85页商品评论

二、主要思路

1）设置起始页（按照销量排序），遍历到85页，每页60个商品信息，共计5100个。

2）因为评论最多只是显示100页（10个/页），85页后的商品评价已经很少了，所以估算评论会在30万左右

3）找到加载评论的js，选择本商品评论，以及时间排序

4）接口JS里，找到最大页，构造并遍历请求

5）输出到MYSQL

三、遇到的一些问题

1）输出缺少输出数据

解决：css遍历需要选定了所有需要遍历的标签

2）存储到数据库的数据有重复

一步步排查

输出并无问题

解决：原来是数据插入mysql时重复，应该是Twisted异步操作太快，浅拷贝还么来得及插入就被替换了，将写入步骤修改为深拷贝，问题解决

3）评论输出少了第一页

解决：因为两次scrapy.Request相同的网址，导致去重机制生效，把其中一项去掉用不到的参数。

github地址:https://github.com/GuoBinxs

最后编辑于：2017.12.10 12:30:45

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

相关阅读更多精彩内容

Android - 收藏集
Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
passiontim阅读 179,863评论 25赞 708
优秀第三方
发现关注消息 iOS 第三方库、插件、知名博客总结作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
肇东周阅读 16,399评论 4赞 61

2017-08-04
望眼欲穿张书云昨日的卿卿我我，今日的悄然离去。我的世界太狭小，你的世界很精彩。我日日望眼欲穿，君在外...
qiushui__lianli阅读 282评论 0赞 2
http 和 https
什么是 HTTPS? HTTPS (基于安全套接字层的超文本传输协议或者是 HTTP over SSL) 是一个...
一个人一匹马阅读 537评论 0赞 2
心情
你总不能想着大哭一场就解决所有的不开心。
孤独得圆满阅读 104评论 0赞 0

友情链接更多精彩内容

1赞2赞

赞赏

手机看全文