缺失值的分类

在统计学和数据分析中,数据可能会以不同的方式丢失或缺失。理解数据缺失的机制对于决定如何处理缺失数据至关重要。这里,我们解释随机缺失(MAR),完全随机缺失(MCAR),非随机缺失(MNAR)的含义,并通过比较和实例来阐述它们的相同之处和不同之处。

MCAR(Missing Completely at Random)

含义:当数据的缺失是完全随机的,与任何数据(观察到的或未观察到的)都无关时,这种缺失被称为完全随机缺失(MCAR)。

相同和不同之处:MCAR 是数据缺失类型中的理想情况,它意味着缺失数据的原因与研究结果无关,并且不会引入偏差。

实际例子:一项调查中,一些问卷由于邮件送达失误而丢失了。这种丢失与被调查者的任何特点(比如年龄,性别,收入等)都无关,也不依赖于任何其他变量的值。

MAR(Missing at Random)

含义:数据的缺失虽然依赖于其他观测到的数据,但与缺失的数据本身无关。这意味着缺失的数据可以用其他完整的数据变量来解释。

相同和不同之处:和 MCAR 不同,MAR 允许缺失数据的概率依赖于观测到的数据。但它不依赖于缺失数据本身的值,所以不会像 MNAR 那样强烈产生偏差。

实际例子:假设一份问卷调查包含收入信息,那些较高收入者可能不愿意报告他们的收入,但愿意回答其他问题。如果我们知道其他相关信息(如职业等级或教育水平),我们可能能够发现收入数据的缺失与这些其他问题的答案有关,而与收入本身的大小无关。

MNAR(Missing Not at Random)

含义:缺失的数据不仅与观察到的数据相关,而且可能与未观察到的数据相关,即缺失的原因与缺失的值本身有关。

相同和不同之处:MNAR 与 MCAR 和 MAR 都不同,因为它意味着缺失数据的概率与缺失数据本身的值有关,这会导致数据分析中的严重偏差,处理起来较为复杂。

实际例子:如果在一项关于心理健康的调查中,那些实际上患有抑郁症的人更可能避免完成调查,那么抑郁症状的数据将是 MNAR 的。因为这里数据的缺失与心理健康状态(即缺失的数据本身)有关。

      总体来说,处理 MCAR 数据相对简单,因为这种类型的缺失数据不会引入偏差;MAR 类型的缺失数据可能需要更复杂的统计方法来纠正潜在的偏差;而 MNAR 情况的处理最为困难,因为它涉及到对未观察数据的假设,并需要使用敏感性分析或其他复杂模型来评估和纠正偏差。在实际中,区分这三种缺失数据类型并采用适当的处理方法是非常重要的。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容