《深入浅出数据分析》之门外汉的数据分析方法论

说真的,尽管自己一直都清楚数据的重要性,尤其是在大学的时候看了涂子沛的《大数据时代》。更是坚定了对于数据重要性的看法,然而,逗比的是即便清楚它的重要性,但是在实操的工作中确依旧对数据似懂非懂。后面分析自己的问题得出两个结论,一个在于不知道选择什么样的数据进行分析;另一个是不知道这些数据的准确性,即如何剔除劣质数据。即便是现在看完了《深入浅出数据分析》这本厚书,也还是对数据的具体实操,以及选择上依旧还是有困惑。就算如此,还是在这里整理一下,看这本书之后的感受,以及书中所提到的个人觉得比较重要的知识。

首先,谈一下做数据分析的大致流程:

1.了解需求,确定数据分析的目标

2.建立数据分析模型,选择目标数据类型

3.收集&整理数据,融入分析模型

4.观察数据,建立可视化模型

5.得出数据结论,提出参考建议

上面的5个步骤,是我在看这本书中的案例所总结出来的步骤,整个步骤提炼,让我想起了之前关于用户研究的整个流程和步骤。从大致上来说,这个5个步骤算是万能的,在很多的工作流程中都可以套用,只需要稍微变形。关于为什么总结出的是这5个步骤模型,一个是书上内容的梳理大致如此,另一个是个人工作经验的总结。确定目标,这个自然不言而喻,大家都能体会到它的重要性,尤其是工作的人,对这个我相信体会是特别深刻的。对于学生而言,这个可能就没有特别深的体会了,毕竟现在学校教育本身更多在意的是结果,而非目标,如若硬是要囊括进来,其实也是可以的,结果也是一种目标的体现。

重点说一下建立模型这一块吧。至于为什么说这个是重点,主要来源于个人工作中的体会。所谓的模型,其实相当于个人在分析一个问题时的方向和框架,这个框架的好坏最后也导致了你分析出来的结论的优劣,以及是否能具备说服力。这也让我想起,今年1月份在杭州参加用户研究入门培训中蓉姐讲到的一个真实案例,一个工作经验丰富的人和一个刚入职场经验不够的人去分析电商的统一个功能,经验丰富的前辈建立的模型是“品牌-导购-基础”这样一个模型,而缺乏经验的童鞋所建立的模型,则更多的是一个功能性质的模型。这两个模型最终的结果是,品牌模型导出了为什么其它的竞品要去做一个这样的功能,而功能性质的模型并不能导出有效的结论,甚至于无法导出结论。再回过头来看,模型这个东西的价值也就可想而知。其实,建立模型就是建立一个参考系,对于参考系我相信大家都不陌生,尤其是学理科的童鞋,物理学中非常多的提到了这样一个东西。在我们生活中也好,工作中也好,我们在评价一个东西的优劣的时候,其实在我们心中都有一个参考系,也就是所谓的评判标准,这个标准决定了我们如何去看一个东西,再高一点还有如何去看待一个人。这些也其实是我们的三观的体现,表明我们如何去看待所有的一切。我们后面所做的一切,都是为了让结论更加靠近我们的模型,然后去评估这个东西离我们的标准是远是近,从而找到合理的解决方案。

其次,在关于3和4个步骤,更多的是一些体力活的东西。这两个步骤的过程中,重要的就是更好的使用工具。在看《深入浅出数据分析》中,书里重点介绍了两个数据分析的工具,一个是强大的Excel;一个叫做R,可以处理比较复杂的,离散的,多类型的数据。然而,实际的操作其实Excel也在一定程度上满足了我们绝大部分的需求,当然对于一个专业做数据分析的从业者而言,这些只不过是基础中的基础,他们还会使用更加强大的数据分析工具,比如SPSS,Tableau等。具体,后面介绍的两个软件,我是不知道怎么用,大家有兴趣的可以自己去百度,或者找这方面的前辈去咨询学习,或者自己买书看。另外,关于分析整理数据,还有一个高效和整理大规模离散数据的方法就是学会使用数据库,通过使用MySQL语句去组合和调用数据库中所存储的庞大数据。最后还要讲到的,就是这本书中经常采用的数据可视化图形主要就是散点图,这个图的作用是可以很好的看出大部分数据所处的区域,同时在一定程度上,可以对具备线性特点的数据,通过回归线进行预测,所谓的回归线其实简单来看就是通过高中所学二元一次函数(y=a+bx)去预测结果。对于那些觉得学校所学东西无用论的童鞋,在遇到这种问题的时候,你就得感谢你之前在学校的学习了。当然,对于学渣的我现在也只能感叹当时没有很好的去学好数学,如今才深刻体会到数学的巨大价值,可以帮助你更加高效,更加科学的理解问题,并解决问题。在预测的时候,其实也会存在误差,所以我们在利用回归线做预测的时候,也必须清楚这个误差的存在,这样才能避免盲目的预测,以及预测结果的不准到底是否为模型不对这样的一些问题。

讲到这里,也差不多要结尾了。也就到了,谈谈第5个步骤了,数据分析的最终导向了。数据分析目标是找到问题,数据分析的目的是解决问题和验证假设,所以当然我们最后对数据进行了大量的处理之后,必然要有结论的导向以及建议的提出。这样我们的数据分析才具备最终的价值和意义,再借用不知道哪本书看到的一句话来结尾吧,“没有结论和建议导出的数据分析,不是叫做数据分析”。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容