几个知识点:
External RNA Controls Consortium (ERCC) :(旨在寻找)通用的RNA参考物,在基因表达定量时可以使用;ERCC并不是内参基因,比之内参基因更为稳定
spike-in:已知浓度的外源RNA分子,在单细胞裂解液中加入spike-in后,再进行反转录。最广泛使用的spike-in是由External RNA Control Consortium (ERCC)提供的。目前使用的赛默飞公司提供的ERCC是包括92个不同长度和GC含量的细菌RNA序列,因此它和哺乳动物转录组不同,主要体现在转录本长度、核苷酸成分、polyA长度、没有内含子、没有二级结构。polyA尾大约15nt(一般保守的内源mRNA的polyA尾有250nt)。用它是为了更好地估计和消除单细胞测序文库的系统误差(除此以外,还有一种UMI在10X中常用)。ERCC应该在样本解离后、建库前完成添加。
具体作用为:
- 评价准确性Accuracy:定量结果和已知的spike-in相关性如何
- 评价敏感性Sensitivity:最少需要多少数量的RNA分析才能检测到spike-in的存在
- 在这篇文章中(https://f1000research.com/posters/6-434#),提到了:加入的ERCC保持一个浓度,在这个浓度下,如果有超过50%的ERCC在所有样本中都能检测到,就说明这个基因可以被检测到,高ERCC含量与低质量数据相关,通常是排除的标准
- 如果ERCC的reads数很高,则表示起始内源性RNA总量低(可能发生了细胞凋亡或者其他胁迫因素导致的RNA降解;另外还可能是细胞体积小,一般来讲小细胞比大细胞有更高比例的ERCC)。
- 其实是否要加spike-in目前还是存在争议的:Spike-ins的使用浓度通常很高,因此会占据很大比例的测序reads;ERCC的捕获效率要低于内源mRNA(Svensson et al., 2017);ERCC会显示高的技术误差,某些情况下会比内源mRNA的表达量更高;另外spike-in的定量会受生物学因素的影响,这会影响它作为对照的可信度
spike-in最广泛的就是ERCC
归一化 cpm
cpm(counts per million)每百万碱基中每个转录本的count值。注意:这个算法只是校正文库差异,而没有校正基因长度差异。
log2(edgeR::cpm(dat)+1)
聚类 dist() ~ hclust() != WGCNA
- dist使用时注意矩阵转置,主要有6种计算方法:”欧式euclidean”, “切比雪夫距离maximum”, “绝对值距离manhattan”, “Lance距离canberra”, “定型变量距离binary” or “明可夫斯基距离minkowski(使用时要指定p值)”。
默认使用第一种欧氏距离,它计算的是:几何空间中两点之间的距离。 - hclust进行层次聚类的方法(系谱聚类)
关于hclust聚类的方法:”离差平方和法ward”, “最短距离法single”, “最长距离法complete”,”类平均法average”, “相似法mcquitty”, “中间距离法median” or “重心法centroid”。
默认使用complete算法。
clus = cutree(hc, 4)cutree就是指定输出哪些群(结果是从大群到小群排列) - 提取批次信息
library(stringr)
plate=str_split(colnames(dat),'_',simplify = T)[,3]
- 每个样本的基因表达信息
- 热图基础上的归一化
scale() scale处理后并不改变数据,只是修改坐标,可降低必需极值对整个数据的影响。scale是对列进行操作,而我们是想对基因(也就是按行操作),这个函数有两个主要的选项:center和scale ,其中center是将每列的元素减去这一列的均值(这个选项是默认TRUE的);scale 是在center操作后,再将处理过的元素除以标准差(同样是默认TRUE的)。另外,处理完别忘了再转换回来 - 重新分组
数据备份是必须的好习惯数据备份是必须的好习惯数据备份是必须的好习惯
完整文章在单细胞天地微信公众号