我学的书是武松老师的《SPSS实战与统计思维》。
推荐这本书和这个老师,讲的真的是实战,而不是枯燥、难懂的纯统计理论。此外这个老师还创建了一个公众号:精鼎统计,不定期会举办培训班(没去过,不在长沙)
统计核心概念
1、总体与样本,对应的参数与统计量,对应概率与频率
2、误差、同质与变异
3、变量、因素与水平
这些核心概念一定要弄清楚的是变量,统计中有三种类型的变量:
计量资料(连续变量)> 计数资料(无序资料) > 等级变量(有序资料)
对于计量资料 需要再菜单
分析--描述统计--探索--对数据进行正态性检验(K-S检验(D检验)、S-W检验(W检验))
生物医学,样本数大于50则选择D检验,在8-50之间选择W检验
前者可以转变成后者。
拿到一组数据应该先进行多角度检验:
数据类型:连续变量是否符合正态分布,如果不符合是左偏还是右偏,还是峰度系数不好,是尖角还是平阔,然后在做个箱式图看看,有无异常值,特大特小值。一般符合正态分布的样本,标准差在均值1/3以内
常见统计设计
1、成组设计
2、配比设计
3、析因设计
4、重复测量设计
设计需要注意到,统计学中存在2K效应,及2组和K组(K≥3)采用的统计学方法是不同的
析因设计为 (因子^因子) 个组,所以通常只选择 2 *2 ,可以解释两种因素及两种因素间交互共三种情况
统计思想
抽样→总体推断→证伪→小概率→误差控制
统计方法
基于不同的变量类型、不同的分组,不同的目的,选择统计方法
确定的统计方法
t检验
单样本、独立样本、配对样本t检验,针对的是连续资料,对数据分布是有要求的,正态分布/独立、正态、方差齐/独立、差值正态
正态(近似)分布资料,一般用均值±标准差描述,非正态使用四分位间距描述
方差分析
简称F检验,比较组间变异和组内变异,组间变异(往往是干预措施)如果远大于组内变异,则有理由说明干预措施在起作用
单因素方差分析(单变量)/随机区组方差分析(双变量)/析因设计方差分析(≥3变量)
方差分析的条件:独立、正态、方差齐
总体有差异之后还需组间两两比较,一般采用LSD法
随机区组方差分析,不分析交互作用
析因设计:单独效应、主效应与交互效应
需要注意的是如果两种干预措施走势相同则说明为正交互、如果走势相反这说明是反交互,如果平行,则不存在交互作用
重复测量方差分析:(b如同一对象不同时间点),条件:正态、方差齐、协方差具有球形性特征
其他临床还会用到的交叉设计方差分析,没学哈
卡方检验
t 检验和F 检验是针对2、K组的连续资料的。
卡方检验是分类资料的检验,也需要记住存在2K效应
记住一点:卡方 = (真实值 - 理想值)^2/理想值
就是真实值与理想值之间的预期(比如王思聪定个小目标先赚它一个亿就比我先赚它1000块要现实)
四格表卡方:
注意一点的是:1)N(样本数)≥40 且T(理想值)≥ 5 选择pearson卡方
2)N(样本数)≥40 且 1 ≤ T ≤ 5 连续校正卡方检验
3)n(样本数)≤ 40 或 T ≤ 1 ,Fisher 精确概率法
4)N(样本数)≥40 且T(理想值)≥ 5 似然比卡方与pearson卡方一致
配对四格表卡方检验, a b c d ,因为a与d一致,所以只要b 与c 有差别。计算公式为
卡方 =(b-c)^2/(b+c) 叫McNemar 检验
此外还有 RC 表单向有序、双向有序(属性相同、不同)的卡方检验(这个瞄过,到用时再依葫芦画瓢),检验方法不同
RC 表:1)皮尔孙卡方,T>=1,且1<=T<5的格子数不超过1/5
2)如不满足条件1)则增大样本量或者结合专业删除或合并某些亚类或者使用Fisher精确检验。
非参数检验
非参数检验,就是把数据排列,得到秩,比较组间秩均值的差别。
非参数检验的精度不如参数检验,但如果非参检验都有统计学意义则参数检验一定有统计学意义,如果非参数检验无统计学意义不能推导出参数检验无统计学意义
非参和参数检验为充分非必要条件
符合参数检验的,都可以用非参数检验做
M-W-U 检验效力最强
以上就是简单回顾了基本的统计比一比的方法。
统计建模
相关
数据间可以存着相关性,如果两个变量的相关性很强,可以通过一个变量去预测另一个变量。样本的相关系数一般用 r 表示
完全正(负)相关:r = 1(-1)
正(负)相关:0<| r| <1
不相关:r=0
曲线相关:不能进行线性相关分析
对于不同类型的变量,相关系数计算不同。常用的有:
1、pearson 简单相关系数:对定距连续变量的数据进行统计计算,正态分布数据
2、spearman 等级相关系数:用于度量定序变量间的线性相关关系,总体分布不明也可选,优先适用于等级资料
3、Kendall r 相关系数:用非参数检验方法来度量定序变量间的线性相关关系。计算基于数据的秩。(目前没看过)
此外还有偏相关:就是剔除干扰因素后的相关性,又叫净相关
线性回归
一元线性回归,y = β0 + β1x + e
自变量x对因变量y的影响
多元线性回归:这个需要自己用不同的变量反复尝试,建立一个符合本专业、本数据的模型(没有最优解)
建立回归模型的时候,自变量 x 之间不要出现高度相关,否则就不应该同时进入模型,不然会导致回归系数异常,莫名其妙增大或减少甚至出现负值。这里涉及到共线性的问题
共线性处理方法
1、基于专业进修变量删除
2、逐步回归
3、岭回归(Ridge regression.sps 宏程序)
4、主成分回归
回归系数反常的原因
回归方程建立后,可能发现回归系数从专业知识上解释不通,或整个方程显著,但每个变量没有显著性,或有些变量从专业上看很重要,却选不进方程
原因主要有:1)数据中有离群值或异常值 2)样本含量不够,或自变量数太多(记录数是变量数的20倍以上为宜) 3)自变量之间存在共线性
Logistic回归
二项Logistic回归分析:
建模策略:
1)先进行单因素Logistic回归分析,选择有意义的因素
2)对自变量进行相关性分析,看是否存在相关,必要时可以调整自变量的类型(比如看到文献中有把连续变量变成分类变量,采用四分位间距法)
3)选出在单因素分析时P值 ≤α 的变量、在专业上被认为具有重要意义的变量,用逐步回归分析法进行多因素筛选,建立多因素模型,P 删除> P 选入
4)若变量少、样本含量较大、缺失值不多,在建模时考虑纳入变量的交互作用。
一般情况下,模型中自变量的个数约为样本含量的 1/10 ,当存在哑变量时,自变量的个数相应减少
结局变量有3种或以上,则为多项Logistic回归
多项回归分析中SPSS默认数值大的为对照 具体分析方法参见书本
Logistic回归主要用途
1、发现风险因素
2、进行预测
3、进行判别
补充资料:
P for trend **
把原来的连续资料按一定的标准(比如四分位间距)分成无序资料,得到的总P值就是 P for trend,其内部可以再进行比较,观察内部的影响
PS
可以把95可信区间,做成森林图*--高分杂志喜欢这样做(看的清楚)
可以用STATA做,也可以用R语言做,记得Stata做的还比较简单,也可以调
聚类分析
有Q型聚类(样品进行分类)
R型聚类(变量进行分类)
聚类方法法
分层聚类:系统聚类,将相似度高的两类聚为一个新类,并不断重复。
一般是针对小样本。在基因芯片、转录组中一般按照分层聚类
快速聚类:快速聚类,K-均值聚类,以距离为标准进行聚类分析
计算速度快,不过需要事先指定聚成几类 ,一般针对大样本
两阶段聚类:首先以距离为依据构建聚类特征树节点,然后依据信息准侧确定最优分组个数对各节点进行分组
可针对既有连续型又有分类变量的数据,并对变量的重要性进行预测
生存分析
我认为更合适的名字应该叫随访分析
生存分析:是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。
可以是任何事件
生存分析不同于其它多因素分析的主要区别点就是:生存分析考虑了每个观测出现某一结局的时间长短
生存时间:是指终点事件与起始事件之间的时间间隔
终点事件:是指研究者所关心的特定结局
起始事件:是指反映研究对象生存过程的起始特征事件
注意就是此类数据经常存在删失数据
扩展资料:per 1 sd
不符合正态分布,就进行标准化
分析--描述统计--描述 选择标准化 (通常是以0位均值,1为标准差,Z score)
可以自行查看z score确定
所以对于标准化后的数据,因为标准差为1,所以数据每增加一个单位,就是一个标准差,所以就是per 1 sd
诊断试验ROC分析
ROC曲线,常用于二分类判别效果的分析与评价。
变量类型:
1、因变量为二分类变量
2、自变量可以是连续型变量或有序分类变量
连续型资料常见于某些定量检验,有序分类资料多见于医学影像诊断和心理学评价
多指标联合诊断试验
本质是找到一个应用价值最优的界值
指标类型:
1)二分类:不用寻找界值,直接评价
2)等级资料,需要寻找最佳界值
3)连续资料,寻找最佳界值
通常先把这多个指标进行Logistic回归分析,得到一个预测概率,再用预测概率做ROC曲线,得到诊断界值。前面Logistic回归分析会得到一个回归方程,把数值代入方程即可得到Logitp值。
判断两种办法有无差异,可以查看他们的可信区间,如果有重叠,则说明两者差异无统计学意义
主成分分析、因子分析
本质上都是降维,浓缩信息,用最少的变量代表最大的信息
问卷信度与效度
需要验证问卷的信度(可信性)与效度(准确性),方便设计调查问卷,确定主体类型
最后又来一句打击自己的话语,觉得这三天也没闲着(除了周日下午带娃),但真的有多少留在了脑海里?
刷新了对统计的认识,对于简单原始数据,只要分局数据类型及分组选择统计方法就好了,统计的差异在于后期的统计建模,这个建模就是对以前认知的刷新。