关于SAS中CMH率差及其可信区间的思考

偷空更新的，先写一部分，后面慢慢补。首先截图是SAS Help中这部分说明的第一部分，先总结下里面的内容：

1、风险差异的本质：

风险差异 = 第一组发生率 - 第二组发生率

2、分层后的情况（假设有多个医院的数据）：

医院A的风险差异 = 医院A中第一组发生率 - 医院A中第二组发生率医院B的风险差异 = 医院B中第一组发生率 - 医院B中第二组发生率 ...以此类推

3、最终的Mantel-Haenszel估计：

总体风险差异 = 医院A的风险差异×权重A + 医院B的风险差异×权重B + ...

4、权重的计算（以医院A为例）：

权重A = (医院A第一组人数 × 医院A第二组人数/医院A总人数) / 所有医院的[(第一组人数 × 第二组人数/总人数)之和]

接下来是关于权重设计的原因：

1、公式中使用两组人数的乘积，这样当两组样本量相近时，权重会更大：

2、如果某一组样本量特别小，该层的权重会相应降低：

这是因为当一组样本量特别小时，该组的估计值不够稳定。例如：一组只有5人，另一组有500人，这5人的结果很可能是偶然性的，毕竟小样本的抽样误差更大，不能很好代表真实的总体情况。

3、为什么还要除以总人数：

答案是为了标准化，因为不除总人数时的情况，权重单位是（人²）。除以总人数后的情况权重单位才会是（人）

更新中。。。。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。