提到数据分析,可能很多文科生会想起过往的“痛苦”,数学不好,逻辑不好,没有思路,不知道选择什么分析方法,什么回归分析,相关分析,T检验,因子分析,聚类分析,完全不会,不知道应该使用哪一种,也不知道如何解读指标,尤其是写论文阶段需要做数据分析,而且一定需要,本想着照葫芦画瓢,但还是各种不会。求助老师也不行,老师说你照着这篇文章分析就好,可实际操作起来,自己的数据无论如何都与预期不符合,怎么办,怎么办?
为了解救大家于水火之中,接下来本文将从三个角度进行解读数据分析,完全不带数学公式,让你两小时就能快速掌握数据分析的框架套路,直接上手进行数据分析。
第一点是基础知识的学习,10分钟掌握
第二点是分析方法的选择,半小时理解
第三点是实际应用,20分钟应用
第一点:数据分析基础知识
想要掌握数据分析的逻辑,需要有点前修知识,以一图讲解。
1、首先是数据类型,这是数据分析的核心。
在数据分析的眼中,现实生活中只有两类数据,分别是定量数据和定类数据。可以量化的就叫定量数据,比如身高、体重,身高的数字可以进行PK大小,数字越大代表身高越高。这种就是定量数据。
生活中还有一种数据叫定类数据,比如性别,男和女,其代表分类。不能说男大于女,因此这种就叫定类数据。
2、 其次是数据存储,这是数据分析底层内容。
上述讲了数据类型,接着讲下数据存储。在计算器眼里,它是不认识男,女之类的文字信息。但我们自己是知道男和女这些的。所以就会出现gap,如何办呢?
机器只认知数字,那么我们就把文字转换成数字,比如男就编码成数字1,女就编码成数字2;这样机器就认识数字了。但是这时候人很可能忘记数字1和2代表的意义,因此,这个时候就出来一个叫“数据标签”的功能,标识出数字1和数字2代表的意义。上述即可数据存储的基本原理。有了数字就可以进行对应的研究和分析。
3、P值是数据分析最常见的概念。
在逻辑学中有提到,真理和科学是两个不一样的东西。比如“今天可能下雨,也有可能不下雨”,这叫做真理,简直就是100%正确,不带一丝考虑,当然也可以理解为废话。而科学就不一样,如果这样说“今天有90%的可能性下雨”,这就是一种常见的科学措词。90%是一种概率,而数据分析时基本上均由概率进行推算。P值就是概率的一个表示名词,比如P值为0.01,通常说明有99%的把握(1-0.01=0.99),如果P值为0.2,则可以理解为有80%的把握(1-0.2=0.8)。
但一般情况下,在数据分析时,P值只拆分成2个标准,即0.01和0.05,比如P值小于0.05,通常意思是指至少有95%的把握;P值小于0.01,通常意思是指至少有99%的把握。如果说P值为0.2,你也可以理解为有80%的把握,但这种把握性不高,所以大家不认可这个标准。而只认可P小于0.05和P小于0.01这两个标准。
第二点:分析方法的选择
上述已经讲了数据分析基础知识,即已经理解定量和定类数据。事实上就已经理解了大部分研究方法。
研究方法基本上均是按照数据类型进行区分,最简单的例子,定量数据可以计算平均值,而定类数据只能计算百分比算个数。因此就有以下区别:
上述其实已经有了研究方法的选择,其实这已经是按照专业的做法进行。先区分数据类型,然后再选择对应的研究方法。这是一种专业的思路做法。也只有这样进行,才能知道自己做的对还是不对。接着下述继续举例下,比如常见的定类和定量之间的交叉。
比如定类和定类数据之间的交叉关系,不同性别群体,他们吸烟的比例有没有差异性呢?不同性别的群体他们购买IPHONE的比例有没有差异?明显的这种研究在生活中非常常见,这种一般使用卡方分析。这种分析方法使用非常常见,因为生活中的现象很多都符合这种情况。
定类和定量间的关系,比如不同性别的人体重有没有明显的差异,不同性别的群体他们工作时长有没有差别等等。诸如此类,研究定类和定量数据之间的关系,那么就可以使用到比如T检验,方差分析等研究方法。当然还有其它一些更深入的研究方法。
定量和定量间的关系,比如熬夜时长和体重间的关系情况。如果是分析有没有关系,那么用相关分析就可以了;如果是想研究影响关系情况,那么就可以使用回归分析进行研究。
除了上述的一些基本的研究方法,事实上还有非常非常多的研究方法可以使用,具体研究方法的选择使用这里就不用更多说明,关键是研究的时候,有没有按照专业的做法,即先区分数据类型,然后再选择对应的研究方法,如果有这个步骤,那数据分析就会非常简单和轻松。
具体数据类型与研究方法的对应关系情况,可参考SPSSSAU的官网手册,如果是使用SPSSAU,直接操作的时候就会提示对应需要放定类还是定量数据。比如回归分析,SPSSAU的提示界面如下:
回归分析是研究X对于Y的影响关系,X一般是定量数据(当然也可以定类数据),Y是定量数据;所以SPSSAU会在对应需要放数据标题的框中进行提示。按着提示进行操作一下子就好。
研究方法的选择,这里截图简要说明下:
第三点:研究实际应用
如果已经可以选择正确的研究方法,并且可以使用SPSSAU进行正确的操作,最后关键的一步就需要进行文字描述,写分析,针对具体指标情况进行分析得到结论。事实上每个研究方法都有一定的写作逻辑,这种逻辑是基于研究方法的原理而形成。刚好,SPSSAU把这种逻辑进行提练直接展示给用户,更进一步,把这种逻辑全部进行智能化,将数据结果的逻辑,全部用文字自动分析展示出来。这里仅进行回归分析举例下:
回归分析事实上一般分为五个小步骤,SPSSAU分析建议里面进行了详细的描述。更进一下,也是让用户乐道的功能,即“智能分析”,可见下图:
看完智能分析,基本上就已经完全掌握回归分析模型,如果还没有掌握这个研究方法怎么办呢?SPSSAU同时还提供出详细的帮助手册案例,以及客服咨询。
这个“灯泡”,其实就是打明灯,如果不懂,点下它,就会有详细的帮助手册和案例说明等。当然如果还是不会,直接咨询SPSSAU客服吧。
好了到此为止,相信大家已经基本能理清数据分析的逻辑了,剩下的就要靠各位自己多实践多操作啦,要相信下一次再审核导师一定会对你说: