从「Read.fq.gz」到「SNP.vcf」?我用 TBtools 点点点就整完了~

[准备花3天时间,写这个推文]

写在前面

前述提及,重测序数据分析上游常用软件三兄弟已经聚齐,于是所有用户可以在 Windows 下进行重测序数据分析。为了做实例测试,我找到一大学同学发表论文中的测序数据,给大伙过一遍。

查看数据


一共两个文库,一个是绿叶黄瓜 21 个F2子代的混池,一个是黄叶黄瓜 21个 F2子代的混池。按照PE150和黄瓜基因组大概是230Mb大来估算,我觉得 20M reads满足最低数据量需求。
话不多说,直接开整。

「BWA-MEM2 进行读段回帖」


设置输入如上图,我的电脑配置还可以(六年前,也就是2016年双十一购买的,一共 1w 不到,预算就这么多,这个我比较清楚),大体配置给大伙再看看:



六年来,增加了两三块固态,也重装过两三次系统,多半是....系统盘太小,于是换大一些的。其他的基本没变。我觉得主要就看:

  1. CPU如何,这个U是我目前最满意的,他主频足够高,我觉得办公电脑主频高好一些。那些睿频XXGHz的,其实我不信。另外AMD我也不想碰,Intel稳定实用;
  2. 内存如何,Emmm,这个电脑的配置是一生信转IT的朋友推荐的,叫「泣雨」,也不知道他现在咋样了,不过我相信应该过得非常好。至少有房有车。那会各种电脑硬件可能是最低的时候,反正我是踩到点了。内存是上满的。我想,如果没上满,那这几年肯定不会过得轻松。
    Emmm,现在时间是2022年06月04日09时30分,咱们就先干活,等着看啥时候能比对完。我估摸着 1M Reads 6 个线程大概是需要30min,这次要一共20M,但是用了 8 个线程,所以... 可能需要 2030/86 = 450min = 7.5h。一共两个样品,那么我估摸着,大体是晚上睡觉前可以跑完,也就是2022年06月05日00时30分。那会可以回去睡觉了。不过无论如何,晚上下班或者睡觉前再看看。早知道,我就昨天晚上跑了,那就今天下午就可以看到结果了。
    现在时间是2022年06月04日17:30,我看了下,已经处理14809816,也就是 14M 的 PE Reads 了。还剩下 6M reads。估摸一下,过去了 8 个小时,所以我们大概还需要 4 个小时。很好,整体上时间预估有问题。之前咱们预估的是单端的数据?Anyway。看起来,单纯 20M 的 PE Reads,咱们的 PC 就要跑 12 个小时。于是,整体上,这两个 Samples 需要跑到明天早上 10点 做过。至少猜想是。 24小时....其实,也还好。
    刚才有一哥们找我聊天,他还真的已经跑了一轮了,做的好像是甜橙之类的。
    我问他,为啥要整?
    因为有人评论,说这系列基本没用。
    结果他的意思是,多少可以给导师省一些钱,
    经费有限。现在一般建库 200~300,测序就 30~50/G。总体上,纯测序,还是很便宜的,20M reads,费用应该是在 500 块钱,建库+测 6~8G 的数据。所以一个BSA下来,只要 1,000 块钱的测序费。至于分析,每个公司收费可能不同....或许是可以省一两千?这个不懂....
    不过想自己分析就自己分析吧,有时候,你想着基因组更新了?对你的结果可能有点影响云云。这个真不知道。完事,继续等着吧。明天早上 10点 咱们期待结果。
    早上8点出头到办公室,吃了一下早餐,哦吼,居然早就跑完了?

    现在时间是2022年06月05日,看样子是白天一般我搞太多测试,影响整体比对和IO,大致速度慢一些。Anyway,整体时间比更新后的预计少了4个小时左右,也就是大概两个20M的PE150在我的PC上,每个跑10个小时,还不错。
    PS: 上述文件名整错了,新版本应该是自动.bam后缀的,因为他是bam文件....

「SAMtools 进行比对结果排序」

Anyway,有了比对后的 bam 文件,咱们可以马上开始做BAM的位置排序。



Emmm,有点坑爹,我忘了给线程了,不过 4个线程,我觉得也没啥问题。新版本的 Samtools 其实挺快的。



这个是开始时间,我比较机制,现在直接写log信息,这样就方便确定花了多少时间

很快,不到15min,两个BAM文件就排序完了,结果如下


「SAMtools 进行重复标记」

比对排序完事了,咱们就可以来进行重复标记。这个在SNP Calling之前,还是挺重要,避免 PCR Duplicates 对 SNP 检测的影响。



好的,这次我学聪明了,直接开 8 个线程....咱们看看这个要等好久?



这个就很快,5min搞定

「BCFtools 进行变异检测」

对位置排序后的BAM文件进行重复标记后,咱们就可以直接 SNP Calling 了。



Emmm,这个也再等等,看看要多久。


「BCFtools 过滤SNP」

鉴定出来的变异位点一般是相对宽泛,假阳性位点相对较高。正常操作上,我们会尽可能保留「按照一定标准」认为是靠谱的位点。此处不过展开,因为这个过滤本身有不少学问,以至于后面会放出另一个变异检测路子。Anyway,其实对于 SNP (不含Indel)整体还行的。具体如下



由于速度太快,此处不展示时间

打完收工

现在时间是 2022年06月05日09:30,正好 24 小时,整完两个 20M PE150 Reads的重测序数据分析。后面可想而知,就是鉴定 QTL,毕竟这个是 BSAseq 数据。
这是最后输出的文件



咱们看看文件内容


写在最后

完美!比预计时间提前了 1 天完成。路漫漫,其修远兮~
游戏,才刚刚开始。
哦,对了。至于这三个插件获取,直接到「香蕉平行线」拿就是。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,809评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,189评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,290评论 0 359
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,399评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,425评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,116评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,710评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,629评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,155评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,261评论 3 339
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,399评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,068评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,758评论 3 332
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,252评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,381评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,747评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,402评论 2 358