跟着Briefings in Bioinformatics学数据分析:植物线粒体基因组组装流程GSAT初步尝试

论文

Master graph: an essential integrated assembly model for the plant mitogenome based on a graph-based framework

https://academic.oup.com/bib/article-abstract/24/1/bbac522/6854450?redirectedFrom=fulltext&login=false

bbac522.pdf

软件的github链接 https://github.com/hwc2021/GSAT

论文作者在CGM基因组沙龙做了学术报告,录屏在B站可以找到,链接是 https://www.bilibili.com/video/BV1v24y1h7Nw/?spm_id_from=333.999.0.0

论文中作者利用自己开发的流程组装了拟南芥和水稻的图形化的线粒体基因组,我找到了论文中拟南芥的数据,重复了一下整个过程,这篇推文做一个记录

拟南芥的全基因组测序数据,包括ngs hifi ont 来源于论文 https://www.sciencedirect.com/science/article/pii/S1672022921001741

数据可以从国家基因组科学数据中心下载,之前也写了推文进行介绍

这个流程的第一步是使用spades这个软件利用二代测序数据进行一个初步的组装,这一步如果是利用完整的全基因组测序数据去做的话时间会非常长,而且得到的结果也不理想(不知道是不是我自己的做法存在问题)。

这一步我去下载了NCBI已经有的拟南芥线粒体基因组序列,把二代全基因组测序数据比对到这个线粒体基因组,然后提取比对上的reads,最后用比对上的reads去做GSAT流程的第一步

比对(bowtie2)提取reads的代码

bowtie2-build at_mt.fasta at_mt.index/atmito
bowtie2 -p 8 --local -x at_mt.index/atmito -1 ../ngs/CRR302670_f1.fastq.gz -2 ../ngs/CRR302670_r2.fastq.gz -S atMito.sam
samtools sort -@ 8 atMito.sam -O bam -o atMito.sorted.bam
samtools index atMito.sorted.bam
grep '>' at_mt.fasta | awk '{print $1}' | awk 'gsub(">","")' > chr.list
python get_mapped_paired_end_reads_from_bam.py --bam atMito.sorted.bam --chrlist chr.list --or1 r1.fq --or2 r2.fq
bgzip r1.fq
bgzip r2.fq

然后按照GSAT 这个流程的github主页的文档去运行,运行这个流程需要提供config文件,config文件里的参数除了文件路径其他的我都没有改,因为还不明白每个参数起到的作用

这个流程是用perl语言写的,第一次使用可能会提示有一些perl的模块没有安装,需要对应的安装好相应的模块,因为我不太熟悉perl语言,perl模块的安装对于我来说一直是一个难点,还好这次没有遇到太多的报错

流程第一步

~/biotools/GSAT/bin/gsat graphShort -conf example.conf.short.reads

得到结果

image.png

这一步用到的是二代测序数据,接下来的内容全部用到的是三代测序数据

作者在论文里写道是推荐用Hifi数据的,但是我hifi数据还没有下载,暂时用ont的数据做下面的三个步骤

首先是选取一部分数据,因为总的数据量很大

zcat ../ont/CRR302667.fastq.gz | ~/biotools/seqkit/seqkit sample -p 0.2 -s 1234 -o at.ont.long.reads.fq.gz

~/biotools/seqkit/seqkit fq2fa at.ont.long.reads.fq.gz -o at.ont.long.reads.fa

第二步流程

~/biotools/GSAT/bin/gsat graphLong -conf example.conf.long.reads.01

得到结果

image.png

第三步流程

~/biotools/GSAT/bin/gsat graphSimplification -conf example.conf.long.reads.02

得到结果

image.png

第四步流程

~/biotools/GSAT/bin/gsat graphCorrection -conf example.conf.long.reads.03

得到结果

image.png

大体的流程能够走下来,但是后续如何处理还不明白,论文中提到的分析也还有好多看不懂,还需要多看几遍

欢迎大家关注我的公众号

小明的数据分析笔记本

小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!

image.png
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,386评论 6 479
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,939评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,851评论 0 341
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,953评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,971评论 5 369
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,784评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,126评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,765评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,148评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,744评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,858评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,479评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,080评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,053评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,278评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,245评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,590评论 2 343

推荐阅读更多精彩内容