用python3爬取天猫商品评论并分析(1)

  在上一篇文章我们已经完成数据的采集,并将数据存储在mysql,现在我们来继续后面的数据分析工作,先放出项目流程:

0.主要流程

0.数据采集

0. 目标网址获取

1. 爬虫框架选用

注:了解这一步请登录https://www.jianshu.com/p/2b015d289083

或http://blog.csdn.net/weixin_41716128/article/details/79306923

1.数据处理

由于某种原因上一篇采集的960条记录不小心给我删除了--_--(而且没有备份)

因此我重新再采集了一次,并且这次只采集只有有追加评论的订单。如图:

对比一下抓取的数据与网页基本一致。

0. 数据存储

数据库是mysql5.7版本,配置与安装数据库这里就不介绍了,度娘很多教材呢!

1. 数据清洗

好了进入正题,我们开始整理数据。初步观察数据是比较完整的,没有什么缺失值。但是要专业分析sql代码还是需要敲下!如下:

select id from iphonex where 当天评论 is NULL or 追加评论 is NULL;

#选择评论为空的id

update iphonex set 当天评论=replace(当天评论,'此用户没有填写评论!','0');

#消除 ’此用户没有填写评论!’ 的字符值

update iphonex set 当天评论=replace(当天评论,',',',');

update iphonex set 追加评论=replace(追加评论,',',',');

#把英文的逗号改为中文格式,方便以后导出csv格式

update iphonex set 机身颜色=机型;

update iphonex set 存储容量=机型;

update iphonex set 机身颜色=replace(机身颜色,'网络类型:无需合约版;机身颜色:','');

update iphonex set 机身颜色=replace(机身颜色,';存储容量:256GB','');

update iphonex set 机身颜色=replace(机身颜色,';存储容量:64GB','');

update iphonex set 存储容量=replace(存储容量,'网络类型:无需合约版;机身颜色:银色;存储容量:','');

update iphonex set 存储容量=replace(存储容量,'网络类型:无需合约版;机身颜色:深空灰色;存储容量:','');

update iphonex set 存储容量=replace(存储容量,'GB','');#去除多余信息

这里需要注意的是先用图形工具MySQL-Front添加2个字段

update iphonex set 当天评论=replace(当天评论,',',',');

update iphonex set 追加评论=replace(追加评论,',',',');

注意一下这2条代码,原值与修改值分别英文和中文的逗号,将文件存为csv必须要注意的问题。(当然你也可以选择空格或者制表符,那么就要将多余空格和制表符替换掉)运行代码后,再修改存储容量的属性为int型 


结果如图:

2. 数据初步分析

导出数据:

数据格式为csv,以英文逗号为分隔值。再用数据分析图形工具spss打开数据(当然你也可以选择excel)

如图:

spss配置与安装?请问度娘。

好了一切准备好了showtime!!!!!!

订单完成交易时间与计数关系图:

初步分析可以发现销量最高的2天为11月30 与12月16,这个比较符合现实规律销量最高的都在双11与双12之间(快递一般最迟7天?)。

机型与计数饼图:

机身颜色与计数图:

灰色比较受欢迎哦!!!

这个有点惊讶64和256差不多,但是感觉256多点呢有木有?

当天就追加评论的人数较多。评论可靠度算是一般般。因为很多人没有体验太多就评论了。

  突然发现忽视了一个重要的问题----------价格。因为64GB和256GB的价格是不一样的,因此第一个图只能证明销量而无法表示销售金额。若要分析销售金额,需要再对数据进行一些处理。需要作变量替换即64GB=8388元,256GB=9688元再分析。(这里就不展开了!!)

  好了初步分析做到这里了,当然其实还有许多隐藏的有用信息,要将这些挖掘出来需要大家不断积累经验了!!数据挖掘要放到下一篇文章做了!下面介绍下上篇文章爬虫提到的天猫securitymatrix技术

2.数据挖掘

0. 文本挖掘

1. 用户情感分析

1.难点说明

0.关于天猫securitymatrix技术

关于securitymatrix先上某博主对securitymatrix的介绍:

安全矩阵(Security Matrix)是专业从事信息安全产品与服务、应用数学技术与密码技术的技术与学术研究组织,聚集了一批优秀的专业人才,致力于数学技术、密码技术、信息安全技术研究和相关软件产品研发,在国内信息安全领域独树一帜。目前,安全矩阵以专业的安全服务为核心,开发出包括商用加密系统及其相关产品、反黄系统、多款安全WEB信息系统、个人反木马套装在内的多款产品,并在安全评估、内容安全、接入安全、Web安全、密码技术、软件保护技术等研究领域中取得多项科研技术成果。诚信、协作与创新是我们价值观中最重要的部份。在我们的研究、开发、服务过程中,在我们与客户及国内外信息安全研究团队学习、交流过程中,我们都坚持这些原则,并且坚信通过我们专业的产品与服务,能够为社会创造高价值。参考网址:http://www.smatrix.org/

一大堆概念?好像天书?这个与爬虫有什么关系?总结一下吧!天猫这个系统其实对爬虫有有一定限制(其他限制爬虫方式还有许多如js封装,登陆验证,验证码,封ip。。。。),比如:重定向(是什么?度娘)。天猫相对于京东,爬取难度就高很多了。因此要更深入的爬取天猫还要做很多的突破!!!!所以希望大家能多交流分享经验!

换一个角度想想,其实我们快速且大量地(分布式)爬取天猫的数据时。对天猫是有一定影响的,天猫不但有可能泄漏了一些重要信息,而且会加大天猫服务器的负担的。(爬虫侵权的例子不少:eBay起诉Bidder's Edge)我们要遵守法规,适度爬虫呀!!!!!(对于我这个新手这好像是梦话哈哈哈哈)

最后引用Ryan Mitchell的话:时间就是一切,请限制你的爬虫,time.sleep(3)。

注:要获取标准的代码格式请访问:csdn微博

1.关于机器学习

好了写那么多赞赏或关注下吧

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容

  • 由于日后实习需要,新年假期在家里有空写了个抓取天mao评论的程序,并用python的snownlp模块进行简单的...
    Java丶Script阅读 5,810评论 0 7
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,594评论 18 139
  • 現在咁多佛教網站,睇睇下,真係都好似幾興盛。 但係又想起一位大德曾經講過: 「道場道場,道要深長;長道長道,有場無道。」
    某小孔阅读 180评论 0 0
  • 举杯愁月, 独是思念。 意为亲上亲, 共得缘上缘。 君是泮泽, 吾是石岸。 同是君俸, 行则不路。 2016.10...
    花念凡阅读 252评论 1 1
  • 罗子君的逆袭,我从未当做一个弃妇靠男人逆袭,罗子君蜕变的过程中,有很多地方值得我学习的地方。 想要好的婚姻,先要成...
    若雨听涵阅读 1,192评论 0 0