dropout 与数量生态学中的双零问题十分相似
Zero can arise in two ways:
the gene was not expressing any RNA (referred to as structural zeros) or
the RNA in the cell was not detected due to limitations of current experimental protocols (referred to as dropouts)
cell-gene矩阵中的零可能真的是未表达的也可能是由于一些原因未检测到,就是零有两种可能,而不同的解释对结果是有影响的。
一般的处理思路有俩:
- 降维:通过特征提取或者特征选择(选择一部分数据)
- 插补:根据概率模型填补Zero (其实是把零值作为缺失值来考虑)
提出问题的人在某种程度上有责任提出解决办法,或者建议。所以开发了R包,由于只能做聚类就显得有些小众了。
用于单细胞RNA-seq(scRNA-seq)数据的大多数现有降维和聚类包通过heavy modeling和computational machinery 来处理dropouts.
CIDR,一种隐式的插补方法(imputation),减轻scRNA-seq数据中dropout的影响。
CIDR改进了标准主成分分析,并且在聚类精度方面优于最先进的方法,即t-SNE,ZIFA和RaceID。
CIDR通常在几秒钟内完成处理数百个cell的数据集,几分钟内完成处理数千个cell的数据集。
Missing data and technical variability in single-cell RNA-sequencing experiments
github|CIDR
CIDR: Ultrafast and accurate clustering through imputation for single-cell RNA-seq data