一、问题与数据
某广告公司制作了一段电视宣传视频,希望能够同时吸引男性和女性购买者的注意。现该公司共招募20位男性和20位女性研究对象,请他们观看电视宣传视频后为视频评分,并根据两组分数对比判断男、女受试者对该视频的喜好程度。他们收集了研究对象的性别(gender)和评分(engagement)。
二、对问题分析
研究者拟分析两组数据均值是否有差异,即根据两组的评分,判断男性和女性对该视频的喜好程度。针对这种情况,我们可以使用独立样本t检验,但需要先满足6项假设:
- 假设1:观测变量为连续变量,如本研究中的评分为连续变量。
- 假设2:观测变量分为2组,如本研究中分为男性组和女性组。
- 假设3:观测值之间相互独立,如本研究中各位研究对象的信息都是独立的,不存在相互干扰。
- 假设4:观测变量不存在显著的异常值。
- 假设5:观测变量在各组内接近正态分布。
- 假设6:两组的观测变量的方差相等。
经分析,本研究数据符合假设1-3,那么应该如何检验假设4-6,并进行独立样本t检验呢?
三、SPSS操作
1. 对假设的判断
假设4和假设5可通过以下方式来检验。假设6的检验结果可在结果解释部分查看。
在主界面点击Analyze→Descriptive Statistics→ Explore,弹出Explore对话框。在对话框中将engagement变量放入Dependent List栏,并将gender变量放入 Factor List栏。
点击Plots,取消对Descriptive栏内 Stem-and-leaf选项的选择,并点击Normality plots with tests选项,点击Continue→OK。
2. 检验假设4:观测变量不存在显著的异常值
通过上述操作后,SPSS输出箱式图。
一般来说,如果研究数据中存在显著的异常值,箱式图会以星号或者空心圆点的形式提示出来。如果数据值大于1.5倍箱距,数据的表示方式为空心圆点;如果数据值大于3倍箱距,数据的表示方式为星号。从上图可以看出,本研究数据中没有显著异常值,满足假设4。
如果箱式图如下图所示,则提示数组有疑似异常值。该图提示,男性组第6位受试者的数据为疑似异常值,数据值大于3倍箱距。女性组的第26位受试者的数据也为疑似异常值,数据值大于1.5倍箱距。
3. 检验假设5:观测变量在各组内接近正态分布
正态性可以使用Shapiro-Wilk检验来判断。SPSS输出Shapiro-Wilk检验结果如下图。
一般来说,如果数据接近正态分布,那么Shapiro-Wilk检验的P值就大于0.05;反之如果数据并不接近正态分布,那么Shapiro-Wilk检验的P值就小于0.05。从上图可以看出,男性/女性组内数据接近于正态分布(P>0.05),满足假设5。
对于正态分布的判断,SPSS提供了多种方法,常用的有Shapiro- Wilk (W 检验)、Kolmogorov-Smirnov检验(D检验)、P-P图、Q-Q图、其它有直方图、箱式图、偏度系数、峰度系数等。
Shapiro-Wilk (W 检验)和Kolmogorov-Smirnov检验(D检验)
两种检验都属于非参数检验方法。SAS中规定:当样本含量N≤2000时,结果以Shapiro-Wilk(W 检验)为准;当样本含量N>2000 时,结果以Kolmogorov-Smirnov(D检验)为准。但是,当样本量较大时,两种方法的假阳性率较高(容易得出P<0.05,不符合正态分布的结果。
P-P图、Q-Q图和直方图
P-P图以样本的累计频率为横坐标,其对应的正态分布理论累计概率作为纵坐标画散点图。当数据与正态分布拟合较好时,图上的点会大致围绕第一象限的对角线分布。
Q-Q图以样本的分位数为横坐标,其对应的正态分布理论分位数为纵坐标画散点图。当数据与正态分布拟合较好时,图上的点会大致围绕第一象限的对角线分布。
也可看直方图是否以钟形分布来判断(直方图还可以选择输出正态性曲线)。
正态性检验
W检验和D检验在样本量较小时,容易出现假阴性;样本量过大时,容易出现假阳性。因此对于正态性检验,因结合多种方法综合判断。此外,t检验对数据的正态性有一定的耐受能力。如果数据只是稍微偏离正态,结果仍然是稳定的。如果数据偏离正态很远,则需要考虑数据转换或采用非参数方法分析。
4. 独立样本t检验
在主界面点击Analyze→Compare Means→Independent-Samples T Test,在弹出的对话框中,将engagement变量放入 Test Variable(s)栏,并将gender变量放入 Grouping Variable 栏。
点击Define Groups,在Group 1栏输入“1”,在Group 2栏输入“2”,点击Continue→OK。
四、结果解释
1. 统计描述
在检验假设6和结果解释之前,我们需要对数据有一个基本的了解。SPSS输出结果如下图。
在本研究中,男性和女性组的样本量分别是20(“N”栏)。男性组为该电视广告打分的平均值为5.5589(“Mean”栏),标准差为0.29190(“Std. Deviation”栏);女性组为该电视广告打分的平均值为5.2999(“Mean”栏),标准差为0.39339(“Std. Deviation”栏)。
2. 检验假设6:两组的观测变量的方差相等
两组的观测变量的方差相等是进行独立样本t检验的必要条件。Descriptives表中显示各组的方差值如下图。
本研究中男性组的方差值为0.085,女性组的方差值为0.155。单从这个数据来看,我们发现女性组的方差值几乎是男性组的两倍,但是这仅仅是抽样数据的方差结果,并不代表两组数据的方差一定不等。我们需要通过Levene's检验,判断两组总体的方差情况,即大家熟知的F检验,如下图。
s检验结果显示,F=1.922,P=0.174,提示两组数据方差齐,满足假设6。
一般来说,如果数据满足上述假设,我们就可以进行独立样本t检验。但是如果数据满足假设1-5,但是不具有等方差性,那么我们就应该使用Mann-Whitney U检验或者t’检验。本研究满足假设1-6,可以进行独立样本t检验。
3. 独立样本t检验
首先我们可以看到两组数据的对比分析,如下图标注部分。男性组和女性组为该电视广告打分的差值为0.25900(“Mean Difference”栏), 95%置信区间为0.03726 到0.48074(“95% Confidence Interval of the Difference”栏)。
上图中,如果Levene's检验结果显示<strong>方差齐</strong>,则读“Equal variances assumed”行中的t检验结果。如果<strong>方差不齐</strong>,则需要读“Equal variances not assumed”行中的t’检验结果。
本研究中,Levene's检验结果显示方差齐(F=1.922,P=0.174),t检验结果显示,t=2.365,<em>P</em>=0.023,提示男性和女性为电视广告的打分值存在统计学差异,即电视广告对男性和女性的吸引力不同。
五、撰写结论
本研究采用独立样本t检验判断某电视广告对不同性别人群吸引力的差异。研究数据不存在显著异常值,且在各组内接近正态分布,同时方差齐。结果显示,男性对该电视广告的打分(5.56 ± 0.29)高于女性(5.30 ± 0.39),差值为0.26(95%置信区间为0.04-0.48)。
独立样本t检验结果提示,t = 2.365, <em>P</em>=0.023,说明男性和女性给该电视广告的打分存在统计学差异,即该电视广告对男、女性的吸引力不同。
六、练习数据下载
作者:解琪琪
链接:https://www.jianshu.com/u/bcb81276c29d
来源:简书
参考学习资源:怎么判别我的数据中存在特异值?教你几招!
SPSS教程:判断数据正态分布的超多方法!
独立样本t检验 (简洁版)
简书著作权归作者所有,任何形式的转载都请联系作者获得授权并注明出处。