20211017读书笔记


Gapless indica rice genome reveals synergistic contributions of active transposable elements and segmental duplications to rice genome evolution

https://doi.org/10.1016/j.molp.2021.06.017


文章截图

研究背景

    基因组组装的最终目标是高准确且无gap的基因组。而在植物基因组中,转座子(TEs)、着丝粒和片段复制(SDs)等重复序列十分普遍,且在基因组进化中有非常重要的作用。这些重复序列是是基因组组装的难点。

    长读段测序技术的发展使得基因组组装的连续性大大提高;Bionano、Hi-C、10X Genomics技术的出现,提高了组装的连续性。技术的发展使获得高准确且无间断的基因组成为可能。因此,作者提出了一种新的无gap的组装方法。

组装方法


组装方法示意图

    A.使用Hifiasm(version0.12)对来自NCBI网站SRA数据库中明辉63的40.7 Gb HiFi reads进行初步组装。

    B.依据indica rice参考基因组R498 ,使用NUCmer或MCScan将contigs锚定到染色体上。基因图谱、Hi-C等方法也可以用于锚定contigs。

    C.通过每个contig位置的回帖,每个染色体由一系列的contig和gap表示。针对剩余的gap,利用Hifiasm生成的读段重叠信息进一步重构了关系图(Fig1C),识别出每个gap之间所有可能的路径,然后为每个gap选择重叠最多的路径,得到了每条染色体从起点到终点的路径。

    通过三步操作,最终可以获得无gap的indica rice基因组。

评价方法

评价填补的gap部分

    首先,作者核对了Illumina双端测序和PacBio HiFi 测序的覆盖率,结果是两种方法都可以均匀映射到gap区域。之后,作者使用Pilon 和Racon分别使用Illumina和PacBio进行两轮校正。最终基因组MH63KL1组装成12个contigs,总长397.71 Mb, contig N50大小31.93 Mb。

与其他高质量基因组比较

    作者使用BWA、samtools、GATK等方法,将MH63KL1与其他15个高质量的水稻基因组进行比较,结论是MH63KL1的作图效率更高,覆盖度更低;MH63KL1包含更少的SNPs,代表重复序列更高的完整度与更少的组装错误。之后,作者使用Benchmarking Universal SingleCopy Orthologs (BUSCO)评估基因区域的完整性,而MH63KL1是16个基因组中完整度最高的。

评价共线性

    作者使用NUCmer分析MH63KL1与MH63RS3、R498、ZS97RS3和IRGSP-1.0的共线性,有高度同线性。之后,作者将MH63KL1与GenBank中BACs进行比对,结果是所有BAC序列都成功比对,覆盖率超过90%。

SDs与进化关系

不平衡分布

    作者利用SEDEF识别了MH63KL1中长达92.21Mb的SDs区域(Fig2A),发现chr4、chr10、 chr11、chr12的SDs区域更多,chr1、chr2、chr3的SDs区域更少。

SDs区域与功能进化的关系

    作者认为,在一个待测组织中显著高水平表达的基因对,与 sub- or neo-functionalized潜在相关,这些基因对称为AEDs(asymmetrically expressed duplicates)。

    作者使用BLASTP识别SDs区域中的旁系同源基因,共识别6869对,其中2646对互为best hits。研究这2646对基因对发现991对AEDs,且随着Ks值增加,AEDs数量在增加,可认为SDs与功能进化有关联(Fig2C&D)。

    作者使用KEGG路径分析,也印证了上述观点(Fig2B)。

SDs的识别与其对进化的影响

活跃的TEs与进化的关系

    作者在MH63KL1中识别了158.30Mb的TEs,其中近70%是LTR因子。作者根据每个LTR-RT末端LTRs差异,计算LTR-RT的插入时间。结果是在大约150万年前indicajaponica品种LTR-RTs都有剧烈扩展。然而,50万年内indica基因组开始显著扩展,而LTR-RTs的扩展可能仍在进行中。这表明indica中的TEs更加活跃。在低表达的重复基因之间,各类型TEs的丰度较高,证明活跃的TEs可能在indica的驯化中发挥了重要作用。


学习心得

    这篇文章开辟了一种基于三代测序技术的无gap组装方式,提高了基因组组装的完整度。读完文章之后,我了解了许多关于基因组的评价角度与评价方法,也看到作者针对SDs区域与TEs区域进行的研究,通过计算Ks值、KEGG路径分析、计算插入时间等方法,推测对应区域在功能进化中的作用。

    文章的后半部分针对SDs区域中NBS-LRR、cZOGTs等基因进行了详细解析,通过绘制系统发生树、热图等方式,展示了SDs区域内基因与强化抗病性状的关联。

    提高基因组组装准确度是当前生物学研究的重要课题,技术的不断推进,使得研究不断向准确组装基因组靠近。从多个角度评价新组装的基因组,才能向他人证明基因组的可信程度。准确组装基因组,是为了更好地解决生物学问题,为研究生物的起源、驯化、基因功能等提供数据基础。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,761评论 5 460
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,953评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,998评论 0 320
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,248评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,130评论 4 356
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,145评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,550评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,236评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,510评论 1 291
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,601评论 2 310
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,376评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,247评论 3 313
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,613评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,911评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,191评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,532评论 2 342
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,739评论 2 335

推荐阅读更多精彩内容