关于SAS中CMH率差及其可信区间的思考

偷空更新的,先写一部分,后面慢慢补。首先截图是SAS Help中这部分说明的第一部分,先总结下里面的内容:

1、风险差异的本质:

风险差异 = 第一组发生率 - 第二组发生率

2、分层后的情况(假设有多个医院的数据):

医院A的风险差异 = 医院A中第一组发生率 - 医院A中第二组发生率 医院B的风险差异 = 医院B中第一组发生率 - 医院B中第二组发生率 ...以此类推

3、最终的Mantel-Haenszel估计:

总体风险差异 = 医院A的风险差异×权重A + 医院B的风险差异×权重B + ...

4、权重的计算(以医院A为例):

权重A = (医院A第一组人数 × 医院A第二组人数/医院A总人数) / 所有医院的[(第一组人数 × 第二组人数/总人数)之和]

接下来是关于权重设计的原因:

1、公式中使用两组人数的乘积,这样当两组样本量相近时,权重会更大:

2、如果某一组样本量特别小,该层的权重会相应降低:

        这是因为当一组样本量特别小时,该组的估计值不够稳定。例如:一组只有5人,另一组有500人,这5人的结果很可能是偶然性的,毕竟小样本的抽样误差更大,不能很好代表真实的总体情况。

3、为什么还要除以总人数:

        答案是为了标准化,因为不除总人数时的情况,权重单位是(人²)。除以总人数后的情况权重单位才会是(人)

更新中。。。。

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容