研究设计是重中之重,不管是医学还是其他任何领域,数据分析绝不是最后一步,而是全域的。
参考:李艾钧-Python统计分析实战-医学统计学-01 研究设计
0.概述
统计分析过程
- 统计设计
- 数据整理与核查
- 描述性分析
- 统计推断
研究分为两类
- 实验性研究:人为施加干预
① 基础实验、动物实验
② 临床试验:
三要素:随机 对照 重复 -
观察性研究:现有因素
纵向研究与横向研究
- 纵向研究 (longitudinal study)也叫追踪研究,是指在一段相对长的时间内对同一个或同一批被试进行重复的研究。
- 横向研究(cross sectional research),也叫横断研究,是指通过在同一特定时间内比较不同年龄组的被试来研究发展倾向的一种方法。 与“纵向研究”相对。
1.临床试验-CONSORT
1.1临床研究设计至少要考虑:
- 对照组
- 纳入排除标准
- 样本量计算
- 观察指标
- 安全性指标
- 盲法?
1.2按照CONSORT临床试验报告统一标准
- 试验情况的一般描述
- 组间基线的均衡性评价
- 药物或治疗的有效性评价:有效性、非劣效性、等效性
- 安全性评价
2.观察性研究-STORBE
2.1 基本类型
- 现况研究-横断面研究:发病率、死亡率等
- 病例对照研究-因果推断-回顾性:OR值
- 队列研究-由因溯果-纵向前瞻性:RR值
可参考STORBE观察应研究报告规范
2.2 OR值与RR值反映关联强度
-
OR值:比值比,优势比 指(病例组中暴露人数与非暴露人数的比值)除以(对照组中暴露人数与非暴露人数的比值)
在其他数据的统计分析中,有某个行为或特征的用户为暴露,而其标签值决定其为病例组1 or 对照组0
A/B test 从医学统计学角度来说有点像 队列研究,前瞻性、因果推断、纵向
在其他类型数据的分析中,有某个行为或特征的用户为暴露,RR可以用诸如购买率等指标来计算
2.3 真实世界研究
医学上临床试验排除的干扰因素太多,在真实世界中纳排标准可能控制得更少一些,减少纳排标准,不排除特殊人群和病情严重、合并症较多的病例。
- 增加样本量,加快研究进度
- 反映真实世界的情况
- 但规范的指导还不完善
常采用大样本量(n>=10000),并在此基础上进行各种亚组分析从而控制混杂因素
2.4 观察性研究控制混杂因素的方法
- 分层分析(易)
- 多因素调整分析(易)
- 倾向性评分分析(遭受质疑)
- 工具变量分析
- 机器学习方法 如聚类等
3.诊断试验
和金标准方法去比 → 真阳、假阳、真阴、假阴
这里要关注的是评价方法
混淆矩阵
! 准确度、灵敏度、特异度 易搞混
ROC曲线与PR曲线
- AOC:ROC曲线下面积,越大越好,至少>0.5,>0.7时可以认为有较好的诊断价值