不学统计,不谈逻辑 |《行为科学统计》

为了学统计同时看了《行为科学统计》、《行为统计学基础》、《商务与经济统计》、《深入浅出统计学》。都是好书,但推荐前两本。第三本对公式和过程解释得不是特别简单,最后的不够系统,但是对核心概念解释得比较好,我是拿来参考不懂的概念的。本文以《行为科学统计》为主进行梳理,主要是围绕假设检验以及检验方法。更基础的概念下一篇梳理。


图片发自简书App

支撑推断统计的学科是概率论(很重要!!),因此结论都是一定概率范围内的。

假设检验

含义

我的理解:
从一个总体中抽出许多个大小为 n 的样本,样本均值基本遵从正态分布(中心极限定理),定义 α 的概率为显著性水平,则认为大部分的抽样均值(比例为 1-α)在零假设(H0)定义的范围之内。而若某次抽样(实验抽样)均值出现在 α 对应的数值范围内,则与我的判断不符,拒绝 H0。
(α代表范围、分布概率,z代表距离)

这部分很重要,理解了就理解了统计学的核心思想。下面的各种方法都是基于这个概念。

《行为科学统计》的解释:


假设检验图.png

关键概念:

  • z-score:表示每一个数值(X值)在总体分布中的位置,即距离总体平均数多少个标准差。
z-score 公式.png
  • 中心极限定理:
    对于任意平均数为 υ,标准差为 σ 的总体,样本大小为 n 的样本平均数分布具有平均数 υ,标准差 σ/√n(这货是根号),并且当 n 趋于无穷时,分布将趋于正态。

  • 样本均值的标准误差
    M表示样本分布平均数(注释见最后),则M的标准误= σM= σ/√n(公式见p178)
    样本平均数的 z-score: 表示从总体中多次抽样的到的多个样本均值 M 的分布,M 在此分布上的位置
    标准误≠取样误差(因为它表示样本均值分布的离散度(距离平均值也是总体均值υ),而不是每次取样有可能产生的误差)
    也可看作:样本与总体的差异/偶然误差


    样本均值分布的 z-score.png
  • 均值置信区间

  • 两类错误
    第一类错误:拒绝 H0 而 H0 为真,错误概率为α
    第二类错误:不拒绝 H0 而 H0 为假,错误概率为贝塔

  • 显著性水平:统计上的显著水平

    • 表示了经处理后的样本和总体有显著差异,但不代表处理效应多大,只代表是否有效。
    • 不一定是实质上的显著。因为它表示处理效应大于随机效应,随机性由标准误测得,当样本很大时,小的处理效应也可以是显著的。
  • 处理效应 科恩d
    科恩 d 值=平均数差/标准差= (M-υ)/σ


    科恩d的效应.png

步骤

  • 声明 H0
  • 声明 H1
  • 确定合适的统计量
  • 确定显著性水平
  • 判别合适的抽样分布
  • 确定拒绝H0的区域
  • 总结和分析数据

统计方法

平均数检验:单样本

z 检验(总体方差已知)

z=(M-υ)/σM= (M-υ)/σ/√n
置信区间 υ=M±zσM

置信区间:已知α水平,可根据α/2求得标准正态分布(均值0,标准差1)的 z-score,(因为求区间,因此取α/2),再根据上面的公式求得置信区间。

t 检验(总体方差未知)

大多数情况下总体参数未知。xxx统计学家以 student 的化名发表了 t 分布。用样本方差估计总体方差。

  • 公式


    t检验公式.png

公式中的分母 sM 是一个估计的标准误,用估计的标准差 s 替代总体标准差 σ

估计的标准误.png

s 如何计算呢?
总体方差 σ 平方=SS/n, SS=(总体每一数值-总体均值)的平方和,即总体数值与均值离差的平方和。

如下图是样本数值与均值的离差的平方和。它小于总体数值与均值离差的平方和。(因为总体的外延更大,会有极值没包含在样本内)


样本离差平方和.png

那么由于样本方差的分子小于总体方差的分子,在用样本数值估计总体方差时,改小分母,使估计精确。

因此用样本数值估计总体时,估计总体方差=s 平方=SS/n-1=SS/df

  • 自由度:df=n-1
    自由度:若一个数列15个数,平均数 u, 那么14个数可自由取值,由于均值确定,第15个数可得出,它是不自由的。因此自由度 n-1

  • t 分布的形态:接近于正态分布,样本越大,越接近正态分布

  • 根据自由度、α值可得期望 t 值

  • 置信区间(下述)

  • 处理效应

    • 科恩d值
      估计的d值=平均数差/估计总体标准差=(M-υ)/sM
    • r平方


      r方公式.png

      r方大小解释.png
  • 根本假设

    • 样本中的数值都是独立观测的
    • 样本来自的总体必须是正态分布(n很大时,误差不大)

平均数检验:双样本

独立样本检验

独立样本研究两个完全独立的样本。重复样本对同一样本使用不同的处理。

  • 典型实验
    研究两种教学方法的差异,一组同学使用方法一,另一组同学使用方法二。
  • 公式


    双样本t检验公式.png

    公式表示用样本均值的差异来评估总体均值的差异


    双样本t检验公式含义.png

    分母计算:
    双样本t检验分母.png

    分母 sp平方(合并方差)用两个样本平均方差来表示每个样本的方差

  • 自由度=df1+df2=n1+n2-2
  • 处理效应
    • 科恩估计d=平均数差/标准差


      双样本t检验科恩d.png
    • r 方,同单样本检验
  • 根本假设
    • 每个样本中的观察都必须是独立的
    • 两总体都必须是正态分布,但样本量大时关系不大
    • 两总体方差相等
  • 方差齐性检验:Hartley 检验
    公式中的合并方差是两总体方差的均值,如果两总体方差不等,则这个值失去意义。
    思路是:假设两总体方差相等,那么样本方差也近似。
    • 公式:


      Hartley方差齐性公式.png
    • k=独立的样本的个数(独立样本 t 检验中 k=2)
    • df=n-1 对于每个样本来说,自由度为 n-1 ( 如果两个样本样本数不同呢?)
    • 求值:在α,k, df, 已知时 可求的 Fmax 临界值,如果观测值大于临界值,则齐性假设无根据,小于则总体方差相等。(等于?)
    • 若方差不等,可以进行方差修正 《基础》306
  • 检验一般步骤(待补充)

重复样本检验

  • 典型实验
    对一组同学先使用某种教学方法测验,再用另一种方法,看哪种方法测验结果更好。

  • 缺点和解决
    时间因素和顺序效应:两次测试在时间上不同,变化可能是由时间引起;由于顺序问题,第2次测验可能疲惫(例如教学方法类测验)
    解决:尽量抵消平衡。例如对于教学方法一二的测试。第1组被试先一后二,第二组先二后一。

  • 公式


    重复样本t检验公式.png

    通过计算每个被试两次测验的差值,以这个差值作为样本数值,求均值并与总体均值比较。可看作单样本检验。

D 表示差值,sMD=独立样本检验的公式

  • 效应大小
    • 科恩估计d=样本差值平均数/样本标准差=MD/s
    • r 平方,同单样本检验
  • 检验一般步骤(待补充)

t 检验中 总体均值的置信区间:


t检验总体均值置信区间.png

平均数检验:多样本 方差分析

和t检验的区别:

  • 可以测量多因素
  • 可以既有因素,又有因素的 level
  • 可以同时进行独立测量和重复测量
    例如两组被试,每一组用不同的治疗方法(独立),每一组都在3个时间点测量(重复)

单因素:独立测量

  • 典型实验:对3组样本,测量3种温度条件对学习成绩的影响
54E63A7D-904F-4FF3-903A-9FBE2ECB762A.png
  • 公式:F=组间方差/组内方差=MS间/MS内
    MS间=SS间/df间 MS内=SS内/df内
    MS 表示均方,理解为方差

  • 公式含义:处理效应引起的效应+个体差异和偶然误差/个体差异和偶然引起的效应
    处理效应是否比偶然引起的效应大

  • 公式计算:
    组内方差=每组各自SS和/每组各自df和 (合并方差)
    组间方差=SS总-每组各自SS和/组间df
    总方差=SS总/df总

    方差分析单因素公式.png

    df总=N-1 N=各样本数总和
    df组内=n1+n2+n3-k=N-k k表示处理条件或因素水平的个数 在这个典型实验里 k=3
    df组间=k-1=df总-df组内

  • F分布: 起始为0,趋近于1的有偏分布。越靠右概率越小。


    方差分析单因素分布.png
  • 显著性检验:已知α和分子分母的自由度,可算出F期望。若F观测大于他,则拒绝H0

  • 处理效应


    方差分析单因素独立测量效应公式.png

    方差分析中用η平方表示

  • 事后检验:检测到底哪些处理效果起作用

    • Tukey 检验
      公式


      Tuckey事后检验.png

      几个样本大小(n)必须一样
      已知k, df内,α,查表得 q
      HSD表示差异显著时所得值,可比较每组样本均值差是否大于HSD

    • Scheffe 检验
      最安全的事后检验

  • 检验一般步骤

    • 声明 H0
    • 声明 H1
    • 确定合适的统计量
    • 确定显著性水平
    • 判别合适的抽样分布(若n>30,误差不大)
    • 确定拒绝H0的区域
    • 计算总、组间、组内分别3个 SS 和 df -> MS组间、组内 -> F 值
    • 若F显著,Hartley 检验方差齐性
    • 方差齐性检验显著/不显著,先修正F,检验处理效应r方?
    • Tukey 事后检验
  • 根本假设同 t 检验 两个处理时 F=t方

单因素:重复测量

  • 典型实验:测试不同分散注意力的情况对视觉任务的影响。对n个被试,要求在没有干扰、视觉干扰(闪光)、听觉干扰(噪音)时找出图片错误。考量3组处理,以处理为维度。
  • 原理:


    方差分析重复测量原理.png
  • 计算公式:F处理间/F误差 =处理效应+偶然误差
    (没有个体差异)/偶然误差(没有个体差异)
    SS被试间


    方差分析单因素SS被试间.png

    Df被试间=n-1(n=被试数)

  • F 计算步骤
    • 计算总、处理间、处理内分别3个 SS 和 df
    • 计算F分母各成分,算出SS被试间 -> SS误差=SS处理内-SS被试间 df误差=df处理内-df被试间
    • 计算分子分母 MS处理间=SS处理间/df处理间 MS误差=SS误差/df误差
方差分析重复测量计算.png
  • 处理效应


    方差分析单因素重复测量效应公式.png
  • Tukey /Scheffe 事后检验
    同单因素,MS误差替代 MS处理内,df误差替代 df处理内

  • 根本假定

    • 每个处理条件里的观察必须是独立的
    • 每个处理内的总体分布必须是正态分布,但样本量大时关系不大
    • 每个处理的总体总体分布的方差是大体相当的
    • 协方差齐性,每个被试在每个处理条件中都保持一定的相对位置
  • 检验一般步骤

双因素/多因素

  • 适用场景:考虑最简单的情况

    • 双因素
    • 只适用独立测量
    • 样本大小相同
  • 典型实验:3种温度和2种湿度对学习的影响,6种情况每种5个被试。

  • 原理:


    方差分析双因素原理.png
  • 公式
    FA=因素A方差均数/偶然误差
    FB=因素B方差均数/偶然误差
    FAB=不能用主效应解释的方差/偶然误差

  • 计算步骤

    • 计算总、处理间、处理内分别3个 SS 和 df
      典型实验里,df总=30-1 df处理间=6-1 df处理内=5*6-6
    • 计算因素A、B、交互作用AB分别3个 SS 和 df
      dfA=A对应的行或列数-1 dfB同理 SSAB=SS处理间-SSA-SSB dfAB=df处理间-dfA-dfB
    • 计算MS处理内、MSA、MSB、MSAB
    • 计算FA=MSA/MS处理内 FB=MSB/MS处理内 FAB=MSAB/MS处理内
      方差分析双因素计算.png
  • 处理效应


    方差分析双因素效应公式.png

    因素A 同 B 的公式

  • 事后检验?

  • 根本假定:同单因素独立测量检验=t检验

  • 检验一般步骤

相关(待补充)

附:统计学符号表
υ
σ
M: 代表样本分布平均数,理解为单次抽样的样本均值。一个总体的许多个样本,每个样本的平均数是一个M值。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,222评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,455评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,720评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,568评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,696评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,879评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,028评论 3 409
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,773评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,220评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,550评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,697评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,360评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,002评论 3 315
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,782评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,010评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,433评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,587评论 2 350

推荐阅读更多精彩内容

  • Chapter 8 ANOVA 本篇是第八章,内容是方差分析。前一段考试,汇报,作业。忙不过来,停更了一段时间,现...
    G小调的Qing歌阅读 15,788评论 6 24
  • 1. 简述相关分析和回归分析的区别和联系。 回归分析和相关分析都是研究两个或两个以上变量之间关系的方法。 广义上说...
    安也也阅读 8,672评论 0 3
  • 《数据分析的统计基础》的读书笔记 作 者:经管之家、曹正凤 出版社:电子工业出版社 版 次:2015年2月第1...
    格式化_001阅读 9,518评论 1 58
  • 遥知不是雪,为有暗香来。 竹外桃花三两枝,春江水暖鸭先知。--苏轼<惠崇春江晚景> 儿童疾走追黄蝶,飞入菜花无处寻...
    彩霞姑娘阅读 252评论 0 2
  • 看到你,受不了。看到你,受不了。看到你,受不了。看到你,受不了。看到你,受不了。看到你,受不了。看到你,受不了。看...
    littlestupid阅读 236评论 0 0