3天统计学习小结

我学的书是武松老师的《SPSS实战与统计思维》。
推荐这本书和这个老师,讲的真的是实战,而不是枯燥、难懂的纯统计理论。此外这个老师还创建了一个公众号:精鼎统计,不定期会举办培训班(没去过,不在长沙)

统计核心概念

1、总体与样本,对应的参数与统计量,对应概率与频率
2、误差、同质与变异
3、变量、因素与水平
这些核心概念一定要弄清楚的是变量,统计中有三种类型的变量:
计量资料(连续变量)> 计数资料(无序资料) > 等级变量(有序资料)
对于计量资料 需要再菜单
分析--描述统计--探索--对数据进行正态性检验(K-S检验(D检验)、S-W检验(W检验))
生物医学,样本数大于50则选择D检验,在8-50之间选择W检验
前者可以转变成后者。
拿到一组数据应该先进行多角度检验:
数据类型:连续变量是否符合正态分布,如果不符合是左偏还是右偏,还是峰度系数不好,是尖角还是平阔,然后在做个箱式图看看,有无异常值,特大特小值。一般符合正态分布的样本,标准差在均值1/3以内

常见统计设计

1、成组设计
2、配比设计
3、析因设计
4、重复测量设计
设计需要注意到,统计学中存在2K效应,及2组和K组(K≥3)采用的统计学方法是不同的
析因设计为 (因子^因子) 个组,所以通常只选择 2 *2 ,可以解释两种因素及两种因素间交互共三种情况

统计思想

抽样→总体推断→证伪→小概率→误差控制

统计方法

基于不同的变量类型、不同的分组,不同的目的,选择统计方法

确定的统计方法

t检验

单样本、独立样本、配对样本t检验,针对的是连续资料,对数据分布是有要求的,正态分布/独立、正态、方差齐/独立、差值正态
正态(近似)分布资料,一般用均值±标准差描述,非正态使用四分位间距描述

方差分析

简称F检验,比较组间变异和组内变异,组间变异(往往是干预措施)如果远大于组内变异,则有理由说明干预措施在起作用
单因素方差分析(单变量)/随机区组方差分析(双变量)/析因设计方差分析(≥3变量)
方差分析的条件:独立、正态、方差齐
总体有差异之后还需组间两两比较,一般采用LSD法
随机区组方差分析,不分析交互作用
析因设计:单独效应、主效应与交互效应
需要注意的是如果两种干预措施走势相同则说明为正交互、如果走势相反这说明是反交互,如果平行,则不存在交互作用
重复测量方差分析:(b如同一对象不同时间点),条件:正态、方差齐、协方差具有球形性特征
其他临床还会用到的交叉设计方差分析,没学哈

卡方检验

t 检验和F 检验是针对2、K组的连续资料的。
卡方检验是分类资料的检验,也需要记住存在2K效应
记住一点:卡方 = (真实值 - 理想值)^2/理想值
就是真实值与理想值之间的预期(比如王思聪定个小目标先赚它一个亿就比我先赚它1000块要现实)
四格表卡方:
注意一点的是:1)N(样本数)≥40 且T(理想值)≥ 5 选择pearson卡方
2)N(样本数)≥40 且 1 ≤ T ≤ 5 连续校正卡方检验
3)n(样本数)≤ 40 或 T ≤ 1 ,Fisher 精确概率法
4)N(样本数)≥40 且T(理想值)≥ 5 似然比卡方与pearson卡方一致
配对四格表卡方检验, a b c d ,因为a与d一致,所以只要b 与c 有差别。计算公式为
卡方 =(b-c)^2/(b+c) 叫McNemar 检验
此外还有 RC 表单向有序、双向有序(属性相同、不同)的卡方检验(这个瞄过,到用时再依葫芦画瓢),检验方法不同
R
C 表:1)皮尔孙卡方,T>=1,且1<=T<5的格子数不超过1/5
2)如不满足条件1)则增大样本量或者结合专业删除或合并某些亚类或者使用Fisher精确检验。

非参数检验

非参数检验,就是把数据排列,得到秩,比较组间秩均值的差别。
非参数检验的精度不如参数检验,但如果非参检验都有统计学意义则参数检验一定有统计学意义,如果非参数检验无统计学意义不能推导出参数检验无统计学意义
非参和参数检验为充分非必要条件
符合参数检验的,都可以用非参数检验做
M-W-U 检验效力最强

以上就是简单回顾了基本的统计比一比的方法。

统计建模

相关

数据间可以存着相关性,如果两个变量的相关性很强,可以通过一个变量去预测另一个变量。样本的相关系数一般用 r 表示
完全正(负)相关:r = 1(-1)
正(负)相关:0<| r| <1
不相关:r=0
曲线相关:不能进行线性相关分析
对于不同类型的变量,相关系数计算不同。常用的有:
1、pearson 简单相关系数:对定距
连续变量的数据
进行统计计算,正态分布数据
2、spearman 等级相关系数:用于度量定序变量间的线性相关关系,总体分布不明也可选,优先适用于等级资料
3、Kendall r 相关系数:用非参数检验方法来度量定序变量间的线性相关关系。计算基于数据的秩。(目前没看过)
此外还有偏相关:就是剔除干扰因素后的相关性,又叫净相关

线性回归

一元线性回归,y = β0 + β1x + e
自变量x对因变量y的影响
多元线性回归:这个需要自己用不同的变量反复尝试,建立一个符合本专业、本数据的模型(没有最优解)
建立回归模型的时候,自变量 x 之间不要出现高度相关,否则就不应该同时进入模型,不然会导致回归系数异常,莫名其妙增大或减少甚至出现负值。这里涉及到共线性的问题
共线性处理方法
1、基于专业进修变量删除
2、逐步回归
3、岭回归(Ridge regression.sps 宏程序)
4、主成分回归
回归系数反常的原因
回归方程建立后,可能发现回归系数从专业知识上解释不通,或整个方程显著,但每个变量没有显著性,或有些变量从专业上看很重要,却选不进方程
原因主要有:1)数据中有离群值或异常值 2)样本含量不够,或自变量数太多(记录数是变量数的20倍以上为宜) 3)自变量之间存在共线性

Logistic回归

二项Logistic回归分析:
建模策略:
1)先进行单因素Logistic回归分析,选择有意义的因素
2)对自变量进行相关性分析,看是否存在相关,必要时可以调整自变量的类型(比如看到文献中有把连续变量变成分类变量,采用四分位间距法)
3)选出在单因素分析时P值 ≤α 的变量、在专业上被认为具有重要意义的变量,用逐步回归分析法进行多因素筛选,建立多因素模型,P 删除> P 选入
4)若变量少、样本含量较大、缺失值不多,在建模时考虑纳入变量的交互作用。
一般情况下,模型中自变量的个数约为样本含量的 1/10 ,当存在哑变量时,自变量的个数相应减少
结局变量有3种或以上,则为多项Logistic回归
多项回归分析中SPSS默认数值大的为对照 具体分析方法参见书本
Logistic回归主要用途
1、发现风险因素
2、进行预测
3、进行判别
补充资料:
P for trend **
把原来的连续资料按一定的标准(比如四分位间距)分成无序资料,得到的总P值就是 P for trend,其内部可以再进行比较,观察内部的影响
PS
可以把95可信区间,做成
森林图
*--高分杂志喜欢这样做(看的清楚)
可以用STATA做,也可以用R语言做,记得Stata做的还比较简单,也可以调

聚类分析

有Q型聚类(样品进行分类)
R型聚类(变量进行分类)
聚类方法法
分层聚类系统聚类,将相似度高的两类聚为一个新类,并不断重复。
一般是针对小样本。在基因芯片、转录组中一般按照分层聚类
快速聚类快速聚类,K-均值聚类,以距离为标准进行聚类分析
计算速度快,不过需要事先指定聚成几类 ,一般针对大样本
两阶段聚类:首先以距离为依据构建聚类特征树节点,然后依据信息准侧确定最优分组个数对各节点进行分组
可针对既有连续型又有分类变量的数据,并对变量的重要性进行预测

生存分析

我认为更合适的名字应该叫随访分析
生存分析:是将事件的结果(终点事件)和出现这一结果所经历的时间结合起来分析的一种统计分析方法。
可以是任何事件
生存分析不同于其它多因素分析的主要区别点就是:生存分析考虑了每个观测出现某一结局的时间长短
生存时间:是指终点事件与起始事件之间的时间间隔
终点事件:是指研究者所关心的特定结局
起始事件:是指反映研究对象生存过程的起始特征事件
注意就是此类数据经常存在删失数据
扩展资料:per 1 sd
不符合正态分布,就进行标准化
分析--描述统计--描述 选择标准化 (通常是以0位均值,1为标准差,Z score)
可以自行查看z score确定
所以对于标准化后的数据,因为标准差为1,所以数据每增加一个单位,就是一个标准差,所以就是per 1 sd

诊断试验ROC分析

ROC曲线,常用于二分类判别效果的分析与评价。
变量类型:
1、因变量为二分类变量
2、自变量可以是连续型变量或有序分类变量
连续型资料常见于某些定量检验,有序分类资料多见于医学影像诊断和心理学评价
多指标联合诊断试验
本质是找到一个应用价值最优的界值
指标类型:
1)二分类:不用寻找界值,直接评价
2)等级资料,需要寻找最佳界值
3)连续资料,寻找最佳界值
通常先把这多个指标进行Logistic回归分析,得到一个预测概率,再用预测概率做ROC曲线,得到诊断界值。前面Logistic回归分析会得到一个回归方程,把数值代入方程即可得到Logitp值。
判断两种办法有无差异,可以查看他们的可信区间,如果有重叠,则说明两者差异无统计学意义

主成分分析、因子分析

本质上都是降维,浓缩信息,用最少的变量代表最大的信息

问卷信度与效度

需要验证问卷的信度(可信性)与效度(准确性),方便设计调查问卷,确定主体类型

最后又来一句打击自己的话语,觉得这三天也没闲着(除了周日下午带娃),但真的有多少留在了脑海里?

刷新了对统计的认识,对于简单原始数据,只要分局数据类型及分组选择统计方法就好了,统计的差异在于后期的统计建模,这个建模就是对以前认知的刷新。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,047评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,807评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,501评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,839评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,951评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,117评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,188评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,929评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,372评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,679评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,837评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,536评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,168评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,886评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,129评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,665评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,739评论 2 351

推荐阅读更多精彩内容

  • 虽然只相处了短短的十几节课,但是一想起来再上课的时候,有几个孩子的位置是空空的,心里就像被戳了几个洞一样,说...
    shinezs阅读 101评论 0 0
  • 小时候,父母是你背后的靠山,走累了,可以让父母背着,闯祸了,父母会替你收拾残局。但是,从你踏上社会的那一刻起,从你...
    知创快讯阅读 288评论 0 3
  • 哈,你以为我真的再说照镜子吗? 不能这么臭美呀~ 照的不是镜子,而且点滴的小经历。 前两天提到,慢下来生活,感知呼...
    魔力Jenny阅读 320评论 0 1
  • “艺术是无界的。不管是中国画还是西洋画,只是一个时间段一个区域内的艺术存在,从宏观来看,它们之间有没有格局的区分,...
    yuanhong510928阅读 480评论 0 0