2022-01-12文献笔记

MH63RS3和MH63KL1基因组的组装和注释区别:

MH63RS3 MH63KL1

Genome size 395.77Mb 397.71Mb

Number of contigs (close gaps) 12 12

Contig N50 / 31.93Mb

Number of coding genes 39406 文章中说36315个,但是下载的文件中只有35760个

结论:MH63RS3基因组的完整度更高,注释到的基因比MH63RS3少3000多个。MH63KL1的注释主要是用tblastn将MH63KL1基因组与近缘物种的蛋白序列进行比对;MH63RS3的注释主要使用MASKER-P软件完成的。

MH63KL1这篇文章并没有说为什么要重新组装,大致意思是重复序列阻碍着植物高质量基因组的完成,本项工作开发了一个实现MH63gapless genome组装可行的方法。所以,通过我的阅读,我认为MH63KL1这篇文章的关键点是开创了一个新的无gap的组装方法。

MH63KL1的组装:

使用40.7Gb的MH63PacBio HiFi reads对其进行重新组装;使用hifiasm对这些长序列进行重新组装。

Gapless组装-3个步骤:

(1) anchor contigs onto chromosomes:依据indica rice参考基因组R498 ,使用NUCmer或MCScan将contigs 锚定到R498的染色体上;遗传图谱、Hi-C等方法也可以用于锚定Contigs。

(2) linking contig paths to chromosome paths:首先获取每个contig在每条染色体上的位置和方向;如果一个contig和另一个contig位置上是相连的,那么将两个contig连接起来,中间没有gap;最终每条染色体是由一系列的contigs和gaps组成。Map完后,就只剩下3个gap区域,这说明R498是一个非常好的参考基因组,促进了组装。

(3) Finding a unitig for each gap in the string graph:利用Hifiasm生成的读段重叠信息进一步重构了关系图,识别出每个gap之间所有可能的路径,然后为每个gap选择重叠最多的路径,得到了每条染色体从起点到终点的路径。

通过以上三步,获得gapless MH63KL1 genome。

MH63KL1组装结果:

关于组装 MH63KL1

Genome size 397.71Mb

Largest Contig 45.03Mb

Contig N50 31.93Mb

Contig L50 6

评估:

作者使用BWA、samtools、GATK等方法,将MH63KL1与其他15个高质量的水稻基因组(包括MH63RS3、ZS97RS3和R498)进行比较,结论是MH63KL1的作图效率更高,覆盖度更低;MH63KL1包含更少的SNPs,代表重复序列更高的完整度与更少的组装错误。之后,作者使用Benchmarking Universal SingleCopy Orthologs (BUSCO)评估基因区域的完整性,而MH63KL1是16个基因组中完整度最高的。

MH63KL1的注释:

关于注释 方法 结果

TE and other repetitive sequences LTR-finder、RepeatScout、RepeatModeler

Tandem repeats Finder

Gene Anotation A combination of ab initio and homology-based prediction

Tblastn:将七个近缘物种的蛋白序列和MH63基因组进行tblasn比对;然后,the blast hits were analyzed with solar software;GeneWise预测基因结构 ;Full-length cDNAs and ESTs of O. sativa L. indica and full-length cDNAs of O. sativa L. japonica were directly mapped to our MH63KL1 genome and assembled by PASA;Gene models were created by PASA-ab initio gene prediction;

蛋白质功能预测 SwissProt和NR database

蛋白质的结构域预测 InterPro、Pfam database

MH63KL1注释结果:

关于注释 MH63KL1

Number of predicted protein-coding

genes 文章中说36315个,但是下载的文件中只有35760个

Percentage of repeat sequences (%) 41.40

Masked repeat sequence length (Mb) 164.65

MH63RS3 组装方法:

采用七种组装策略如下:

组装工具 特点

Canu v1.8 利用overlap-Layout-Consensus,序列与序列之间的交叠程度,三个步骤:纠错-修剪-组装

FALCON v0.30 二倍体基因组从头组装工具,de novo 三代测序组装工具

MECAT2 是一个很快很快的PacBio组装工具

Flye De novo组装工具,速度也很快

Wtdbg 速度比Flye还要快

NextDenovo

Miniasm

基于以上七种软件的组装结果,使用GPM(Genome Puzzle Master)来整合和优化组装好的contigs。基于HiFi和CLR测序数据,使用GenomicConsensus Arrow算法,对组装好的基因组进行两次polish。基于Illumina测序数据,使用Polish对组装好的基因组进行polish。使用Bionano IrysSolve组装分子to create optical map。

基因组完整性的评估:BUSCO,除此之外,还使用了以下方法进行评估:

Minimap2 Map PacBio HiFi reads and PacBio CLR reads to genome assembly

BWA-0.7.17 Map Illumina reads to genome assembly

BLASTN v2.7.1 Map  BES/BAC reads to genome assembly

HiC-Pro v.2.11.1 Hi-C reads to genome assembly

Hisat2 v.2.1.0 Map RNA-sequencing reads to genome assembly

组装结果:

关于组装 MH63RS3

Genome size 395.77Mb

Compared with RS1

(including 36-45Mb additional sequence) 通过填补RS1版本的167个genome gaps,比MH63RS1版本的基因组的大小多了36Mb

纠正了一些之前因基于Nipponbare-IRSGP1.0基因组导致Misoriented和misassembled regions

BUSCO完整性评估 99.88%

MH63RS3 gap-gree基因组组装成功的关键:使用来自多个平台、尖端技术和汇编器的深度覆盖序列数据集的组合。 

MH63RS3的注释:

关于注释 方法 结果

TE and other repetitive sequences 使用RepeatMasker with the latest Repbase and TIGR Oryza Repeat Database as libraries,LTR_Finder MH63RS3注释到468675TEs(~182.26 Mb),占基因组的~45.99%

Gene Anotation MASKER-P 59903genes/39406 noTE_loci;在所有注释的基因模型中,92%以上的基因与水稻和其他稻属物种的已知蛋白或功能域具有同源性 

Gene encoding TE Annotation 使用TBLASTN在MIPSREdat Poaceae version 9.3数据库中搜索

tRNAs annotation 使用tRNAscan-SE

rRNAs 使用BLASTN对Nipponbare的rRNA序列进行搜索,从而鉴定MH63RS3的rRNA序列 

microRNAs and small nuclear RNAs 使用 Rfam数据库进行预测

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 220,809评论 6 513
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 94,189评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 167,290评论 0 359
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 59,399评论 1 294
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 68,425评论 6 397
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 52,116评论 1 308
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,710评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,629评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 46,155评论 1 319
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 38,261评论 3 339
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,399评论 1 352
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 36,068评论 5 347
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,758评论 3 332
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,252评论 0 23
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,381评论 1 271
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,747评论 3 375
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,402评论 2 358

推荐阅读更多精彩内容