随机对照研究RCT定量数据统计策略
成组两样本t检验
- 研究设计 :RCT
- 处理因素分组:两个水平
- 实验组 and 对照组
- 结局数据类型:定量数据
- 数据特点:正态、方差齐性、独立
总结:两组独立、定量、正态、方差相同(齐)数据比较 - 应用条件:
- 独立性(independence):由研究者根据数据类型判断,各组观察值之间互相独立,互不影响
- 正态性(normality):各个样本均来自正态总体,通过算法(K-S/S-W法)结合图形检验,详参上节内容——统计学学习笔记——day2 - 简书 (jianshu.com)
- 方差齐性(homoscedascity):各个样本所在总体方差相等——数据变异程度类似,方差齐性统计量F值以及P值,P>0.05,接受H0,方差齐,采用t.test;反之,方差不齐,采用校正t.test。
成组两样本t检验假设检验过程
- 建立假设,确定检验水准
H0:μ1=μ2,两组样本某指标总体均数相同
H1:μ1!=μ2,两组样本某指标总体均数不等
检验水准一般为α=0.05,即设定小概率事件,当P值小于0.05时,结果被认为具有统计学意义 - 计算检验统计量t值
- 确定P值,做出推断结论
根据t值,计算Pvalue(此处假设计算所得P=0.0001),按照α=0.05水准,拒绝H0,接受H1,差异具有统计学意义,可认为两组样本某指标总体均数受到自变量影响不同。反之,P>0.05,拒绝H1,不拒绝H0,样本均值无差异,或差异没有统计学意义。
规范的统计描述
平均值±标准差
差值——效应值,相对对照组的效应。
95%置信区间:总体上两组差值95%可能所处的位置。
临床数据中,生存时间——数据分布类型:偏态数据
个人体会:拿到数据后,判断数据类型(定性/定量),如果定量,判断数据分布(正态/偏态)
实验性研究定量数据统计策略
两样本非参数秩和检验
- 研究设计:随机分组设计
- 单因素分组:两个水平
- 结局变量类型:定量数据
- 正态性:数据不符合正态分布
总结:两组独立、定量、严重偏态数据比较,采用两样本非参数秩和检验
参数检验和非参数检验
参数检验:以特定的总体分布(如正态分布)为前提,对其总体参数做假设检验。 比如:t检验,z检验以及F检验
非参数检验:对总体分布不作要求,又名任意分布检验,直接对总体分布做检验假设。重要方法:秩和检验
- 秩和检验:主要以秩次为基础的研究,主要比较排名位置,平均排名位置
秩次(rank)——将数值变量值/等级变量值按一定顺序所排列的序号。
类似于因子。 因子(factor):又称为类别变量,指名义型变量或有序型变量。
名义型变量:没有顺序之分的类别变量,例如Ⅰ型、Ⅱ型糖尿病。
有序型变量:表示一种顺序关系
,但不是数量关系。例如人们描述病情好坏(poor,improved,excellent)。emmmm,秩次更像有序型变量,规定了次序order。
秩和(rank sum)——秩次之和
- 两独立样本秩和检验应用场合:
- 两组非正态定量数据比较
- 两组一端或者两端存在不确定数值得数据比较;
- 有序分类数据(等级数据)得比较
-
wlicoxon mann-whitney秩和检验,也属于两样本秩和检验
基本原理:如果原假设H0成立,则两样本来自分布相同得总体,两样本的平均秩次应该相等或接近,应近似于(n+1)/2。如果平均秩次值偏离(n+1)/2较大,则认为两组有差别。
秩和检验假设检验过程
1. 建立假设检验,确定假设水准
H0:两组样本某指标总体分布相同
H1:两组样本某指标总体分布不同
α=0.05
2. 计算秩和和T值以及检验统计量z值
2.1 编秩:将两组数据放在一起从小到大统一编秩。如果有相同值,则取平均值作为秩次。
2.2 求秩和,确定统计量T:分别求两组秩次之和。若两组例数相等,任取一组得秩和作为统计量T;如果不等,则以样本例数较少组得秩和作为统计量T。
秩和检验在T值基础上,根据公式计算标准正态分布得检验统计量z值,根据z值计算Pvalue,判定Pvalue是否小于0.05。
公式如下:
- 确定Pvalue,做出推断结论。
根据得到的z值,与小概率事件得界值比较(α=0.05时,界值为1.96),如果z小于界值,则P>0.05,接受H0,拒绝H1;反之,则拒绝H0,接受H1。
统计描述
文字:对照组样本某指标中位数为000(上四分位数,下四分位数)单位,空白对照组样本某指标中位数为000(上四分位数,下四分位数)单位,两组总体某指标分布是否存在统计学差异(z=000,P</>000)
此处000 表示数字
表格内容涉及:中位数、中位数差值(95%置信区间)、四分位数,检验统计量Z值,Pvalue
秩和检验适用性高,但检验效能略低于参数检验。
正态分布使用t检验;
近似正态分布
- 理论上、总体上正态用t检验(理论上正态分布,实际偏态,可以用t检验)
- 理论上、总体上偏态用秩和检验(理论上偏态,不要用t检验)
严重偏态用秩和检验
补充:P值与置信区间
样本均数差值代表效应;
95%置信区间含义:总体均数有95%可能落在这个区间(通俗理解) 真实定义:由样本统计量所构造的总体参数的估计区间为置信区间。
当95%置信区间包含0时,说明总体均数可能为0,即H0可能成立,这也意味着,我们不能拒绝H0,此时P一般是>0.05。
计算置信区间学习链接:https://mp.weixin.qq.com/s/uCvIedN2bDSgyjISx0Jacg