在统计学和数据分析中,数据可能会以不同的方式丢失或缺失。理解数据缺失的机制对于决定如何处理缺失数据至关重要。这里,我们解释随机缺失(MAR),完全随机缺失(MCAR),非随机缺失(MNAR)的含义,并通过比较和实例来阐述它们的相同之处和不同之处。
MCAR(Missing Completely at Random)
含义:当数据的缺失是完全随机的,与任何数据(观察到的或未观察到的)都无关时,这种缺失被称为完全随机缺失(MCAR)。
相同和不同之处:MCAR 是数据缺失类型中的理想情况,它意味着缺失数据的原因与研究结果无关,并且不会引入偏差。
实际例子:一项调查中,一些问卷由于邮件送达失误而丢失了。这种丢失与被调查者的任何特点(比如年龄,性别,收入等)都无关,也不依赖于任何其他变量的值。
MAR(Missing at Random)
含义:数据的缺失虽然依赖于其他观测到的数据,但与缺失的数据本身无关。这意味着缺失的数据可以用其他完整的数据变量来解释。
相同和不同之处:和 MCAR 不同,MAR 允许缺失数据的概率依赖于观测到的数据。但它不依赖于缺失数据本身的值,所以不会像 MNAR 那样强烈产生偏差。
实际例子:假设一份问卷调查包含收入信息,那些较高收入者可能不愿意报告他们的收入,但愿意回答其他问题。如果我们知道其他相关信息(如职业等级或教育水平),我们可能能够发现收入数据的缺失与这些其他问题的答案有关,而与收入本身的大小无关。
MNAR(Missing Not at Random)
含义:缺失的数据不仅与观察到的数据相关,而且可能与未观察到的数据相关,即缺失的原因与缺失的值本身有关。
相同和不同之处:MNAR 与 MCAR 和 MAR 都不同,因为它意味着缺失数据的概率与缺失数据本身的值有关,这会导致数据分析中的严重偏差,处理起来较为复杂。
实际例子:如果在一项关于心理健康的调查中,那些实际上患有抑郁症的人更可能避免完成调查,那么抑郁症状的数据将是 MNAR 的。因为这里数据的缺失与心理健康状态(即缺失的数据本身)有关。
总体来说,处理 MCAR 数据相对简单,因为这种类型的缺失数据不会引入偏差;MAR 类型的缺失数据可能需要更复杂的统计方法来纠正潜在的偏差;而 MNAR 情况的处理最为困难,因为它涉及到对未观察数据的假设,并需要使用敏感性分析或其他复杂模型来评估和纠正偏差。在实际中,区分这三种缺失数据类型并采用适当的处理方法是非常重要的。