简介
CRISPR(Clustered Regularly Interspaced Short Palindromic Repeats)/Cas9是一种功能强大的技术,可以通过特定的sgrna (specific single-guide RNAs, sgRNAs)来定位所需的基因组位点进行基因编辑。
CRISPR筛选是一种在单一实验中研究多个基因功能的高通量技术。在筛选实验中,sgRNA被设计、合成并克隆到一个慢病毒库中,该慢病毒库以低MOI感染到目的细胞中,以确保每个细胞只有一个sgRNA拷贝。sgRNA通常包含18-20个bp,引导Cas9酶到特定的DNA位置,切割DNA双链使之断裂,以敲除目的基因。与其他功能缺失筛选技术(例如RNA干扰(RNAi))相比,全基因组CRISPR / Cas9敲除技术具有明显优势,因为它能够在DNA水平敲除基因且花费较少。但是,这些筛选生成的数据给计算分析带来了一些挑战。主要原因包括:首先,通常没有重复或很少重复进行研究,这需要适当的统计模型来估计读取计数的差异并评估处理样品和对照样品之间比较的统计显著性。在阳性和阴性选择实验中,观察到的sgRNA丰度都存在很大差异,并且与Poisson抽样模型相比过于分散。(这种过度分散与其他高通量测序实验(如RNA-Seq )的观察结果相似。其次,由于靶向同一基因的不同sgRNA可能具有不同的特异性和敲除效率,因此需要一种可靠的方法将来自多个sgRNA的信息汇总并这些因素考虑在内。第三,不同的筛选库和研究设计,其CRISPR / Cas9敲除筛选实验的counts分布是不同的,因为阳性选择通常会导致少数sgRNA占据总测序读数的主导地位。这要求对序列读取进行鲁棒的归一化。
几种现有算法,也可用于鉴定大量选择的sgRNA或基因。例如,edgeR,DESeq,baySeq和NBPSeq是用于差异RNA-Seq表达分析的常用算法。这些算法能够评估在CRISPR / Cas9敲除筛选中sgRNA富集的统计意义。设计用于在基因组规模的短干扰RNA(siRNA)或短发夹RNA(shRNA)筛选中对基因进行排名的算法也可用于CRISPR / Cas9敲除筛选数据,包括RNAi基因富集排名(RIGER)。但是,这些方法主要用于从芯片数据中鉴定必需基因,需要一种新算法来对sgRNA以及来自高通量测序数据对应的基因进行优先级排序。
全基因组CRISPR / Cas9敲除(MAGeCK)基于模型的分析,是李炜教授团队开发的用于CRISPR筛选的方法,可从CRISPR / Cas9敲除筛选中鉴定必需的sgRNA对应的基因和途径。MAGeCK在错误发现率(FDR)的控制和高灵敏度方面优于现有的计算方法。MAGeCK的结果在每个基因的不同测序深度和sgRNA数量上也很可靠。此外,使用公开的CRISPR / Cas9基因敲除筛选数据集,MAGeCK能够同时进行阳性和阴性选择筛选,并鉴定具有生物学意义和特定细胞类型的必需基因和途径。
分析流程
a comprehensive CRISPR screen analysis pipeline that applies either MAGeCK or MAGeCK-VISPR to identify gene hits and then performs downstream functional analyses using FluteRRA or FluteMLE.
MAGeCK-VISPR
MAGECK 算法扩展为最大可能性估计方法 (MAGeCK-MLE)。提供基于 Web 的可视化框架 (VISPR),用于交互式探索 CRISPR 屏幕质量控制和分析结果。MAGeCK-VISPR 采用Snakemake工作流,以可扩展和可重复的方式将 MAGeCK 和 VISPR 组合在一起。
MAGeCK-VISPR is freely available
Snakemake
工作流程环境
CRISPR筛选的质量控制测量(QC)
除了用MAGeCK确定必需基因外,MAGeCK-VISPR的主要目的是收集各种水平的质量控制(QC)测量值。建议的测量方法可以分为四类:序列水平,读数计数水平,样品水平和基因水平。
MAGeCK-VISPR的质量控制(QC):
QC term | Description | Expected |
---|---|---|
GC content | GC content distribution of the sequencing reads | Similar distribution for all samples from same library |
Base quality | Base quality distribution of the sequencing reads | Single-peak distribution with median base quality at least 25 |
Sequencing reads | Total number of sequencing reads | Varies depending on sequencing platform |
Mapped reads | Total number of reads mapped to the sgRNA library | 300 * (number of sgRNAs) |
% Mapped reads | Percentage of mapped reads to the total number of sequencing reads | At least 65 % |
Zero sgRNAs | Number of sgRNAs with zero read counts | At most 1 % of total sgRNAs |
Gini index | Gini index of log-scaled read count distributions | At most 0.1 for plasmid or initial state samples, and at most 0.2 for negative selection samples |
Sample correlation | Pearson correlation coefficient between samples | At least 0.8 for replicates |
Correlation clustering or PCA clustering | Hierarchical clustering of samples or first three PCA components | Samples with similar conditions should cluster together |
Ribosomal gene selection | Negative selection enrichment statistics of ribosomal genes | Significant P values (<0.001) for ribosomal subunit (GO:0044391) in negative selection experiments |
基尼系数(Gini index)是经济学中收入不平等的一种常见量度,可以衡量sgRNA读计数的均匀性。在阳性选择实验中,稍后的时间点具有较高的基尼指数是完全正常的,因为一些存活的克隆(一些具有极高计数的sgRNA)可能在最终细胞中占主导,而其他大多数细胞死亡(具有零计数的更多sgRNA) )。相反,质粒文库,早期时间点或阴性选择实验中的高基尼指数可能分别表明CRISPR寡核苷酸合成不均,病毒转染效率低和选择过度。
a new algorithm, ‘MAGeCK-MLE’
r表示不同条件的影响用' βgr '得分表示,这是一种在差异表达分析中类似于' log fold change '术语的基因选择测量。“β”分数反映了每种条件下的选择程度:βgr >0(或<0)表示g在条件r中被正选择(或负选择)。基于当前' β '评分可以估计每个sgRNA的敲除效率
SSC (Spacer Scoring of CRISPR)算法从基因组序列内容准确预测sgRNA敲除效率,对于每个sgRNA, SSC生成一个范围为(−2,2)的效率评分。我们将分数线性地缩放到范围(0,1),作为p(πi = 1)的初始猜测。如果没有给出初始估计,所有sgrna的MAGeCK-MLE以p(πi = 1) = 1开始。
VISPR(CRISPR筛选的可视化)
具体环境配置及使用见官网。