说真的,尽管自己一直都清楚数据的重要性,尤其是在大学的时候看了涂子沛的《大数据时代》。更是坚定了对于数据重要性的看法,然而,逗比的是即便清楚它的重要性,但是在实操的工作中确依旧对数据似懂非懂。后面分析自己的问题得出两个结论,一个在于不知道选择什么样的数据进行分析;另一个是不知道这些数据的准确性,即如何剔除劣质数据。即便是现在看完了《深入浅出数据分析》这本厚书,也还是对数据的具体实操,以及选择上依旧还是有困惑。就算如此,还是在这里整理一下,看这本书之后的感受,以及书中所提到的个人觉得比较重要的知识。
首先,谈一下做数据分析的大致流程:
1.了解需求,确定数据分析的目标
2.建立数据分析模型,选择目标数据类型
3.收集&整理数据,融入分析模型
4.观察数据,建立可视化模型
5.得出数据结论,提出参考建议
上面的5个步骤,是我在看这本书中的案例所总结出来的步骤,整个步骤提炼,让我想起了之前关于用户研究的整个流程和步骤。从大致上来说,这个5个步骤算是万能的,在很多的工作流程中都可以套用,只需要稍微变形。关于为什么总结出的是这5个步骤模型,一个是书上内容的梳理大致如此,另一个是个人工作经验的总结。确定目标,这个自然不言而喻,大家都能体会到它的重要性,尤其是工作的人,对这个我相信体会是特别深刻的。对于学生而言,这个可能就没有特别深的体会了,毕竟现在学校教育本身更多在意的是结果,而非目标,如若硬是要囊括进来,其实也是可以的,结果也是一种目标的体现。
重点说一下建立模型这一块吧。至于为什么说这个是重点,主要来源于个人工作中的体会。所谓的模型,其实相当于个人在分析一个问题时的方向和框架,这个框架的好坏最后也导致了你分析出来的结论的优劣,以及是否能具备说服力。这也让我想起,今年1月份在杭州参加用户研究入门培训中蓉姐讲到的一个真实案例,一个工作经验丰富的人和一个刚入职场经验不够的人去分析电商的统一个功能,经验丰富的前辈建立的模型是“品牌-导购-基础”这样一个模型,而缺乏经验的童鞋所建立的模型,则更多的是一个功能性质的模型。这两个模型最终的结果是,品牌模型导出了为什么其它的竞品要去做一个这样的功能,而功能性质的模型并不能导出有效的结论,甚至于无法导出结论。再回过头来看,模型这个东西的价值也就可想而知。其实,建立模型就是建立一个参考系,对于参考系我相信大家都不陌生,尤其是学理科的童鞋,物理学中非常多的提到了这样一个东西。在我们生活中也好,工作中也好,我们在评价一个东西的优劣的时候,其实在我们心中都有一个参考系,也就是所谓的评判标准,这个标准决定了我们如何去看一个东西,再高一点还有如何去看待一个人。这些也其实是我们的三观的体现,表明我们如何去看待所有的一切。我们后面所做的一切,都是为了让结论更加靠近我们的模型,然后去评估这个东西离我们的标准是远是近,从而找到合理的解决方案。
其次,在关于3和4个步骤,更多的是一些体力活的东西。这两个步骤的过程中,重要的就是更好的使用工具。在看《深入浅出数据分析》中,书里重点介绍了两个数据分析的工具,一个是强大的Excel;一个叫做R,可以处理比较复杂的,离散的,多类型的数据。然而,实际的操作其实Excel也在一定程度上满足了我们绝大部分的需求,当然对于一个专业做数据分析的从业者而言,这些只不过是基础中的基础,他们还会使用更加强大的数据分析工具,比如SPSS,Tableau等。具体,后面介绍的两个软件,我是不知道怎么用,大家有兴趣的可以自己去百度,或者找这方面的前辈去咨询学习,或者自己买书看。另外,关于分析整理数据,还有一个高效和整理大规模离散数据的方法就是学会使用数据库,通过使用MySQL语句去组合和调用数据库中所存储的庞大数据。最后还要讲到的,就是这本书中经常采用的数据可视化图形主要就是散点图,这个图的作用是可以很好的看出大部分数据所处的区域,同时在一定程度上,可以对具备线性特点的数据,通过回归线进行预测,所谓的回归线其实简单来看就是通过高中所学二元一次函数(y=a+bx)去预测结果。对于那些觉得学校所学东西无用论的童鞋,在遇到这种问题的时候,你就得感谢你之前在学校的学习了。当然,对于学渣的我现在也只能感叹当时没有很好的去学好数学,如今才深刻体会到数学的巨大价值,可以帮助你更加高效,更加科学的理解问题,并解决问题。在预测的时候,其实也会存在误差,所以我们在利用回归线做预测的时候,也必须清楚这个误差的存在,这样才能避免盲目的预测,以及预测结果的不准到底是否为模型不对这样的一些问题。
讲到这里,也差不多要结尾了。也就到了,谈谈第5个步骤了,数据分析的最终导向了。数据分析目标是找到问题,数据分析的目的是解决问题和验证假设,所以当然我们最后对数据进行了大量的处理之后,必然要有结论的导向以及建议的提出。这样我们的数据分析才具备最终的价值和意义,再借用不知道哪本书看到的一句话来结尾吧,“没有结论和建议导出的数据分析,不是叫做数据分析”。