Guideseq分析流程

Guideseq是一种检测体内基因编辑脱靶的测序方法，基本原理是CRISPR系统剪切基因组后，在进行基因组修复时可能会将一段设计好的双链DNA，即tag，插入到基因组中，通过tag设计引物可将基因组断裂位点两侧的序列扩增出来建库，之后进行二代测序，通过Guideseq的分析流程即可鉴定出脱靶位点。
具体细节可以看他们的论文：
GUIDE-seq enables genome-wide profiling of off-target cleavage by CRISPR-Cas nucleases | Nature Biotechnology
下图是Guideseq的原理图：

Guideseq

我就不介绍Guideseq的具体分析流程怎么跑了，可以参考这里aryeelab/guideseq: Analysis pipeline for the GUIDE-seq assay. For news, see: (github.com)，不过目前有2个版本，老版本只支持python2，新版本支持了python3，具体代码有略微差异。

Guideseq的分析共分为7步，分别是Demultiplex、Umitag、Consolidate、Align、IdentifyOfftargetSites、FilterBackgroundSites以及Visualize。
符合Guideseq分析的标准数据包含read1、read2、index1和index2四个文件，其中read1和read2就是测序reads，index1为样本index，长度为8nt，index2为8nt的样本index+8nt的umi。
这里记录一下Guideseq的分析思路，即每一步具体做了什么，内容根据python2版本的代码整理。

1. Demultiplex

首先是Demultiplex，这一步的作用是根据index将测序数据按样本进行拆分，因此，如果你的测序数据是多个样本混合一起上机测序的，可以直接跑Guideseq流程。如果你的数据已经按照样本拆分好了，那么就可以跳过这一步。
这一步的具体操作是：
1）将index1和index2的[1:8]的序列(这里是0base，因此各取7nt的序列)组合起来作为样本index；
2）根据样本index将测序文件按样本拆分，拆分后的单样本文件reads数必须>=min_reads (默认10000)，否则存放到undetermined文件；
3）这一步未对原始数据进行更改，仅拆分。

2. Umitag

这一步是对拆分好的数据进行umi标记，用于下一步合并PCR重复的reads。具体操作是:
1）在read1和read2的read id最后加上molecular_barcode，其组成是index2[8:16]_read1[0:6]_read2[0:6]；
2）将reads根据molecular_barcode进行排序。

3. Consolidate

此步的目的是合并PCR重复的reads，因为最终要对鉴定的脱靶位点reads数进行统计，所以要消除PCR的效应。具体操作是：
1）首先将molecular_barcode相同的reads划分进同一个bin；
2）对同一个bin中的reads逐个碱基进行合并：
i) 对每个位置的碱基进行统计，只有质量值大于min_qual (默认15)的碱基才被统计，同时记录每个位置A、T、C、G、N的最高质量值；
ii) 每个位置取出现次数最多的那个碱基，若此碱基出现的频率大于min_freq (默认0.9)，则将该位点合并成此碱基，质量值取该碱基在该位置的最高质量值，否则该位点合并为N，质量值为0；
3）readname 变成 "molecular_barcode_n 原始readname中的第二个元素"，n为被合并的reads数。

4.Align

使用bwa mem进行比对。

5.IdentifyOfftargetSites

这一步根据比对后的sam文件，鉴定脱靶位点。
1）取mapq>=50且flag包含128 (PE测序read2)且flag不包含2048 (嵌合比对)的比对结果，获取read的比对起始位点（根据sam文件中TLEN插入片段长度的正负号不同计算方法也不同）；
2）获得所有比对起始位点及其对应的read数，将同一染色体上距离<=10bp的相邻位点归入一个window，对所有window的read count进行统计，并筛选出满足以下条件之一的window：
i）比对到正链的read count和比对到负链的read count均大于0；
ii）以tag_primer1开头的read count和以tag_primer2开头的read count 均大于0；
3）对于通过筛选的window，确定window中总read count最大的位点，以此为中心，前后各延伸25nt，截取基因组序列；
4）将截取的基因组序列与target sequence进行比对，若最优比对的mismatch<=8，则此基因组位点为脱靶位点，以该window中总read count进行量化。

6. FilterBackgroundSites

一般来说，做实验时会有一个阴性对照，这一步的目的是过滤掉阴性对照中检测到的脱靶位点，但实际的代码是将实验组与对照组的交集保存到单独的文件中，在最后的可视化中并没有将这些位点扣除，这里有些奇怪，不知道我是否理解有误。

7. Visualize

最后就是将鉴定到的脱靶位点进行可视化。
放一张Guideseq论文中的可视化图

image.png

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 220,809评论 6赞 513
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 94,189评论 3赞 395
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 167,290评论 0赞 359
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 59,399评论 1赞 294
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 68,425评论 6赞 397
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 52,116评论 1赞 308
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,710评论 3赞 420
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 39,629评论 0赞 276
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 46,155评论 1赞 319
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 38,261评论 3赞 339
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 40,399评论 1赞 352
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 36,068评论 5赞 347
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,758评论 3赞 332
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 32,252评论 0赞 23
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 33,381评论 1赞 271
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 48,747评论 3赞 375
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 45,402评论 2赞 358