hello,大家好,今天我们继续分享一些寻找肿瘤programs的方法,参考文章在An Integrative Model of Cellular States, Plasticity,and Genetics for Glioblastoma,文章中用到的是层次聚类,但是其他的方法也很经典,所以我们逐一分享。
首先第一部分,先划分肿瘤细胞,首先是识别正常的细胞类型,tSNE analysis and identification of non-malignant cell types
相对表达值用于对通过 tSNE 质量控制的所有细胞进行分类
三个小簇是明显的,这与三种非恶性细胞类型的标记物的高表达有关(也是就说识别正常细胞还是依靠marker)。 因此,我们为每种细胞类型定义了一组标记基因,并通过它们的平均表达对每个细胞进行评分。 对于巨噬细胞:CD14、AIF1、FCER1G、FCGR3A、TYROBP、CSF1R。 对于 T 细胞:CD2、CD3D、CD3E、CD3G。 对于少突胶质细胞:MBP、TF、PLP1、MAG、MOG、CLDN11。 细胞按高于 4 的分数被分类为这些细胞类型中的每一种。仅对恶性细胞进行第二次 tSNE 分析,并且“NumPCAComponents”等于 30。
然后是CNA分析识别恶性细胞,就是我们常用的inferCNV
CNA 是通过按染色体位置对分析的基因进行排序并对相对表达值应用移动平均值来估计的,每个染色体内有 100 个基因的滑动窗口。 分类为每种非恶性细胞类型的细胞用于定义正常核型的ref,从而从所有细胞中减去它们的平均 CNA 值。 然后我们针对两个基于 CNA 的测量对每个细胞进行评分。 “CNA 信号”反映了 CNA 的整体范围,定义为整个基因组中 CNA 值平方的平均值。 “CNA 相关性”是指每个细胞的 CNA 谱与来自相应肿瘤的所有细胞的平均 CNA 谱之间的相关性,但根据基因表达分类为非恶性的细胞除外。 如果细胞的 CNA 信号高于 0.02 且 CNA 相关性高于 0.4,则通过 CNA 分析将细胞分类为恶性(下图)。这个地方类似于分类器。
接下来识别瘤内的programs
首先,对于每个肿瘤,我们根据以足够水平表达的所有基因对细胞进行分层聚类
。 接下来,保守地保留了许多cluster以供进一步分析,包括部分重叠的cluster(),
并为每个定义了一个由优先表达的基因组成的表达特征。 对所有剩余的表达特征进行进一步分析以阐明它们的生物学意义。 不同肿瘤的表达特征高度一致,因此平均而言,每个特征与其他 9 个肿瘤的特征显着重叠(错误发现率 [FDR] < 0.01,超几何测试)。
具体做法
首先,分别使用来自每个肿瘤的单个恶性细胞的平均linkage层次聚类,使用一减去 Pearson 相关性(跨所有分析的基因)作为距离度量。为了选择没有预先定义的聚类数量或层次树中聚类级别的严格阈值的聚类,我们首先恢复所有潜在的聚类,然后根据大小、差异表达信号和冗余排除它们与其他簇,通过以下方式:(1)排除了由各自肿瘤中少于 5 个细胞或 80% 以上的恶性细胞组成的cluster。 (2) 对于每个cluster,估计了优先表达基因的数量:确定了簇中所有基因的平均表达比来自同一肿瘤的所有其他恶性细胞高 3 倍,并且相应的 p 值低于 0.05(使用t检验方法测试并且Benjamini-Hochberg校正错误发现率)。然后,分别计算调整后 p 值低于 0.05 (Nsig1) 和低于 0.005 (Nsig2) 的显着基因的数量。 Nsig1 > 50 和 Nsig2 > 10 的所有cluster被定义为具有足够的差异表达信号并保留用于进一步分析。 (3) 对于每对 Jaccard 指数高于 75% 的集群,我们排除了 Nsig1 较低的cluster。将这种方法应用于 27 个肿瘤揭示了 479 个cluster,包括(根据需要)许多大簇及其较小子簇的病例。最后,使用差异表达的基因 (Nsig1) 作为每个cluster的特征,产生 479 个特征基因集。
接下来定义寻找到的programs的特征分数
给定一组反映特定细胞类型或生物学功能的表达特征的基因 (Gj,这里就是我们上面识别的programs),为每个细胞 i 计算一个分数 SCj(i),量化细胞 i 中 Gj 的相对表达,作为平均相对 Gj 中基因的表达 (Er),与对照基因集 (Gjcont) 的平均相对表达相比: SCj(i) = average[Er(Gj,i)] – average[Er(Gjcont,i) )]。 对照基因集的定义是首先将所有分析的基因分bin到 30 个聚合表达水平 (Ea) bin中,然后对于基因集 Gj 中的每个基因,从同一表达bin中随机选择 100 个基因。 这样,对照基因集的表达水平分布与 Gj 具有可比性,对照基因集放大100 倍,因此其平均表达类似于对 100 个随机选择的基因集的平均表达。 与所考虑的基因集大小相同。 (这个打分方法,比较少见).
接下来Integration of individual signatures into meta-modules
Jaccard 指数反映了signatures对之间的重叠,用于通过average linkage对signatures进行层次聚类。 确定了四组signatures,其中两组稳健地分为两个子组(下图),
从而产生六组signatures,用作定义六个meta-modules的基础。 对于每组特征,我们根据平均表达 log2-ratios 定义meta-modules,across the corresponding signatures:对于每个特征,通过将相应潜在cluster中的所有细胞与所有其他恶性细胞进行比较来定义表达对数比。 同一个肿瘤。 然后将这些对数比在构成一个组(或亚组)的所有特征中取平均值,在每个病例中至少包括六个不同的肿瘤。 然后将每个meta-modules定义为平均对数比大于 2 的所有基因,并仅限于该组programs中对数比最高的 50 个基因。(这个方法其实跟WGCNA是一致的,但还是推荐NMF的方法)。
细胞对meta-module的划分
恶性细胞首先被分配到得分最高的meta-modules,包括六个meta-modules(MES1-like、MES2-like、NPC1-like、NPC2-like、AC-like、OPC-like)但不包括细胞周期meta-modules。 对于大多数分析,将 MES1 和 MES2 细胞组合并为一组 MES 样细胞,同样,NPC1 和 NPC2 细胞合并为一组 NPC 样细胞。 接下来,通过三个标准将混合体定义为在第二个meta-modules(不包括 MES1/MES2 或 NPC1/NPC2 区别)上也有高分的那些:(1)第二个meta-modules的得分高于 1. (2) 第二个meta-modules的得分高于映射到这个元模块的 10% 的细胞(作为他们得分最高的meta-modules)。 (3)第二个meta-modules和第三个meta-modules之间的得分差异至少为0.3。
当使用不同的标准时,杂交的百分比和模式在很大程度上没有变化。 每对meta-modules的“预期数量”(下图)是通过改组每个肿瘤中细胞的meta-modules分数来定义的。
Each meta-module was shuffled independently such that any relationship between the meta-modules was eliminated while the distribution of scores was unchanged as were the differences in distribution between tumors. This shuffling was performed 100 times and in each case we used the criteria defined above to count the number of hybrids. The mean and standard deviations of these counts were then used as a control for the expected number of hybrids.
生活很好,有你更好