「IGV-GSAme」基因结构注释信息-人工矫正-神器

IGV-Gene Structure Annotation Manual Editor,简称IGV-GSAme

写在前面

igv是目前最常用的本地基因组浏览器,与其开发的目标类似,用于整合各种类别的高通量测序数据。当然,他的功能不可能覆盖到高通量测序数据分析的方方面面。在很久以前,我们改造并正式推出了「IGV-sRNA」。这个浏览器的帮助下,我们进一步完善了小RNA预测流程和判断标准,同时也极大地提高了全基因组小RNA鉴定的速度以及质量【拒绝反驳!】。
小RNA的事情已经告一段落,课题组的分析重点开始覆盖到基因组分析。那么会涉及到两个问题:一是基因组组装效果如何?二是基因结构注释效果如何?。两者都会影响到后续基因组分析的正确与否。
其中,对于下游用户,往往基因结构注释影响更大,毕竟多数人的研究还是一个到数个基因上。从最常见的转录组数据分析来说,错误的基因结构注释,只能让你得到错误的表达量估计,更不谈差异表达基因。当然,基因结构注释还影响到比较基因组等诸多方面的工作开展。
这是为什么我在前述写过一篇推文,大体题目是《矫正基因结构注释 - 做良心的基因家族分析》。

本次,我没有放出错误基因结构注释的效果图
因为我已经明白,我们不需要让所有人都知道;因为知道的和想知道的都会知道,剩余的人则不需要知道。

为什么基因结构注释总是存在问题?

无解!生物学是复杂的,而算法的覆盖总是有限的。在完美的算法都可能会存在或多或少的问题。在这种情况下,人工观测并进行校正,可能是最好的方式。

如何进行人工结构注释矫正

目前得到评价最好的只有一款软件「Apollo」,即「Web Apollo」和「Apollo」。这款软件改造于JBrowse改造的,所以是一个网页端的工具。从其论文来看,前端Js,后端sql。一旦涉及到数据库,那么就注定了这款软件存在安装难度
虽然我开始认为,软件难以安装,可以从某种层面上筛选掉多数用户,从而使得软件最终使用者多数为能够并愿意折腾的。或者说,我以前应该是做错了,不应该通过开发软件来降低分析门槛,因为对于多数人来说,可能不要自己进行分析,而是通过科研服务或者课题合作来完成分析项目,是更好的方法?
不过无论如何,我错了,那么是相对于我开发的软件的一部分用户而言的,对我自身来说,或者是磨炼技能,或者是挑战自我能力极限,或者是制作一把更好用的斧头,所以我自身并没有错。
前述,我再次修改了IGV,做了一次间接的支持,使得用户可以通过自定义的区间,导出一个bed文件并转化为gff3文件。这个功能当然能用,但是他存在一些问题:

  1. IGV的「Region Of Interest」工具选择区间后,无法调整起始或终止坐标
  2. 区间结果需要导出再导入,才能看到效果
  3. 对于已有的注释信息,不能直接人工调整,只能从头制备一个基因结构注释
  4. 更新的注释信息,需要后续人为替换原始gff3文件信息

当然,问题还有很多。在推出这个功能之后,课题组提议,安装Apollo。主要的观点是,改造后的IGV用起来不够灵活。其实,我是赞同安装Apollo的,毕竟这是一款实用无差评的工具【当然安装就不提了...】。所以我是推荐安装,并希望由师弟去安装,从某种角度来说,这是一个锻炼机会;从另一个角度来说,我也完全没把握能够在一两天内安装上,即使Apollo其实有docker镜像。
无论如何,这个安装的事情已经明确地安排给一个师弟了,这当然也是我个人的期望之一。但是我仍然不认为我改造的IGV会不够灵活。很快,我花了大半个晚上,重新阅读了IGV的一些实现逻辑,做了一次简单的调整,支持了鼠标拖拽调整ROI。

支持了ROI拖拽,事实上,解决了一个比较大的痛点。师弟师妹用起来也挺开心的。于是他们用去矫正了一些基因结构,目前没发现问题。原本我是计划到此为止。但是,问题来了!我自己也要矫正一批基因结构注释,第一点解决了,但是第二点,第三点,第四点是让我崩溃的事情。我并不是一个喜欢机械性重复工作的人。
使用不够好用的工具,我不会觉得开心。于是,我计划用两天的时间,做最后一次尝试,直接修改IGV,至少解决剩余的三个问题。
两天之后的晚上,我发现我失败了!不仅如此,我开始怀疑我一开始的决定,我从一开始就不应该直接改IGV的已有的Track,而应该重新设计一个Track....
但是两天已经过去了,我已经决定放弃。但还是厚颜无耻地再坚持了一天。也终于,在第三天的晚上,我达成了所有的目标。改造后的IGV,能做的事情比较多。于是我给他取了一个新的名字,这个就叫做IGV-Gene Structure Annotation Manual Editor,简称IGV-GSAme

IGV-GSAme的特性

所有的功能直接在 IGV 的 GFF3 Track中支持,人工矫正基因结构注释,所见即所得!

1. 调整外显子的长度


2. 删除错误的外显子


在这个操作之后,其实CDS已经有变化,所以我们需要重新预测CDS

3. 原地重新预测CDS


重新预测CDS的时候,我们会发现第一个CDS相比于原来的有一点点的左移,因为那个才是整整的ATG。我们可以点击一下CDS,然后黏贴对应的CDS到TAIR数据库,BlastX就会发现,矫正后的才是完全正确的基因。矫正前的是过度拼接或者错误注释。

4. 删除错误注释的转录本

** 5. 添加缺失的外显子**


** 6. 添加新的转录本**
有时候,直接是基因没被注释出来,于是,我们要添加船新的转录本。


经过一份修饰,比如拖拽外显子,添加外显子,对齐剪切边界等等

我们终于得到了新的转录本结构。可以进行Blast确定其是否有可能是编码基因。确定之后,我们可以原地预测CDS。

点击一下这个CDS,随后跟已知基因进行比对。

于是,可以确定这是一个真实存在的编码基因

7. 导出人工修正后的GFF3文件

导出的GFF3,是调整之后的gff3完全版。这意味着,你在IGV中看到的是什么,那么你得到的GFF3文件内容就有什么。或者应该说,是真正意义上的所见即所得

我们可以重新导入原始的GFF3文件,和导出刚才导出的GFF3文件,做一下对比


写在后面

写完这个功能。感触比较深:

  1. IGV设计逻辑,必然久经考验,当然源码中不乏有"I don't why..."或者"It shouldn't happen..."等类似的注释,可见coding的人的痛苦
  2. IGV当然强大,但仍然存在不少可优化的空间
  3. 支持人工矫正注释的操作,应该直接理解逻辑后新设计一个Track,而不是在已有的Feature Track上进行修改,因为这样确实不是一个优雅或者说最有效的方式。
  4. 不爽,坚持,失败,放弃?再坚持一会,放弃?再坚持一会。于是在超时一天之后,我还是在错误的路子上实现了自己想要的效果。效果是一样的,谁会真正去在意你的实现方式?

最后,继续祝各位科研顺利。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容