医学统计学 数据类型与统计资料的描述2020-04-11

丁香公开课学习笔记

几个重要的统计学概念

变异:样本内个体间的差异

同质:样本间个体的相同点就是同质

分类变量:分类,类比之间无大小之分

有序变量:分类,类别之间有大小之分,如肿瘤分级

连续变量:连续值

离散变量:计数变量,只能用自然数或整数来计数的。次数,个数,台数等等。

频率:某个实验结果出现次数/所有实验次数;当次数足够多时,频率会趋近与概率

概率:是某现象的固有属性。硬币只有两面,概率都是一半,不会因为抛硬币次数无关

抽样误差:除非你是对总体进行了研究,否则你是不可避免的,只能减小,没有办法消除。通过标准误(S1越大,抽样误差越大),或可信区间的宽窄评估(最大,抽样误差越大)。

系统误差:多数是由于实验设计的问题造成的误差/偏移,通过纠正实验设计方法进行校正,是可以消除的。对原始研究进行评估的时候,评估的就是偏移,系统误差。

均数:反映正态分布的集中趋势

中位数:反映偏态分布的集中趋势

标准差:反映正态分布数据的离散趋势

四分位数间距:反映正态或偏态数据的离散趋势

方差:是标准差的平方,反映的也是数据的离散趋势

以上均数,中位数,标准差,方差,四分位数都是对数据的描述

标准误和可信区间:反映的都是抽样误差的大小,样本对整体的推断

统计数据与临床资料的一般分类:

统计图表核心在于准确和规范

计量资料的相关分析

线性相关:适用于二元正太分布的统计资料,用person相关系数表示

秩相关:总体分布未知或等级资料等,所以不符合双变量正太分布的都用sperman相关系数

计量资料的因果联系

简单线性回归:因变量(Y)为连续变量,自变量(X)仅有一个

多重线性回归:因变量(Y)为连续变量,自变量(Xi)有多个(多个里面不强求都是连续变量,分类也行)

分类资料的统计分析

 四格表统计分析

一般四格表:方差检验,Fisher精确检验

配对四格表:McNemar 检验,Kappa检验

列联表(RxC)

X,Y皆为分类变量且属性不同,属于双向无序表:方差检验,Fisher精确检验

(检验结果反映的是构成比是否具有差异,不反映大小强度关系)

X为分类,Y为有序变量,属于单项有序表:H秩和检验,Ridit分析,有序变量的逻辑回归

X,Y皆为有序变量且属性不同,属于双向有序表:关心同组差别,按单项有序表处理

                                                                              是否相关,用Sperman秩和相关或典型相关分析

                                                                              是否存在直线变化,用线性趋势检验

X,Y皆为有序变量且属性相同,属于双向有序表:一致性检验(Kappa检验)

分类资料--因果关系

非条件逻辑回归:非配对设计

条件逻辑回归:配对设计

三大回归选择

因变量(Y)连续变量 :简单/多重线性回归

因变量(Y)分类变量 (无论是二分类,多分类,等级变量):逻辑回归

因变量(Y)时间变量和二分类变量:COX回归

不需要管自变量(X),可以是连续变量、等级变量和分类变量,分类变量转换为哑变量进行处理,等级变量按连续变量或哑变量进行处理

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容