【转录组学】LncRNA鉴定思路与软件比较分析

1.非编码RNA简介

非编码RNA是一类被认为不具备编码能力RNA,目前已知的已经有十多种,主要包括了:小RNA(sRNA) <40nt、小干扰RNA、miRNA(18-24nt)、长非编码lncRNA(>200nt)、核糖体RNA、核小RNA、核仁小RNA等等。随着人们认知的逐渐深入,发现这些非编码RNA在转录调控上发挥着重要的作用,并且其他部分同样具有编码蛋白的功能。

1.1 lncRNA结构

在非编码RNA中,有一类长度超过200 nt的RNA分子,被称为长链非编码RNA。非编码RNA的来源包括基因间转录本、增强子RNA、正义/反义转录本等。研究发现一些lncRNA与mRNA非常相似,同样具有5'帽子结构和polyA尾巴,区别是不具有开放读码框(open reading frame, ORF)。在lncRNA的形成过程中,lncRNA的转录由RNA聚合酶II/III所引导,并且大多数lncRNA和mRNA一样具有polyA尾巴。然而,某些lncRNA有着不同的加工修饰途径,其加工过程与tRNA形成过程较为相似,其初始转录本的3'端同样会经过RNase P的切割,形成一段类似于tRNA的mascRNA (MALAT1-associated small cytoplasmic RNA)。

1.2 lncRNA功能与特征

lncRNA最重要的生物学功能之一就是可以与特定蛋白相结合,进而发挥相应的作用。有些支架蛋白或RBP在与作为骨架的lncRNA结合后,促使大分子复合物的形成和激活,能够进一步激活下游通路或直接发挥作用。一部分lncRNA可通过与蛋白结合顺式地作用于某些基因的转录起始位点,进而调节基因转录。lncRNA也可以直接与DNA序列结合,从而形成RNA-DNA三股螺旋复合物,使得染色质构象处于开放状态,促进基因的转录。其他lncRNA则具有辅助抑制因子的功能,可与特定转录因子结合,阻碍其与DNA的结合,而抑制RNA聚合酶的活性。此外,lncRNA在染色质结构重建和三维结构中也起着重要作用,可通过与染色质修饰复合物或增强子元件结合,促进激活子活性。此外,反义lncRNA与相重叠的蛋白编码基因可以相互抑制其基因的表达。近年来,有研究表明lncRNA也是一种重要的内源性竞争抑制ncRNA,可作为miRNA的抑制因子,调节其miRNA对靶基因的负向调控作用。到目前为止,已经有大量的lncRNA-miRNA-mRNA作用通路被揭示并研究了其在各种疾病或者发育进程中的作用。尽管大多数lncRNA不具有编码能力,仍然有研究或预测分析发现有少部分lncRNA具有编码能力,可以翻译形成小分子量的蛋白质。

2. lncRNA鉴定

lncRNA预测软件主要有2种方法,一种是直接预测其是否含有ORF元件或同源预测的方法;另一种是基于机器学习的方法,常见的方法包括:线性回归算法、支持向量机(SVM)、或者随机森林、深度学习等。目前主流的方法是采用机器学习算法鉴定lncRNA。

2.1 机器学习鉴定lncRNA

从是否有参考来看可以分为有参类和无参类。

2.1.1 有参考的鉴定策略

CPC是典型的有参类鉴定软件,它基于SVM算法设计,被广泛使用在lncRNA的鉴定上,是目前公司的主要鉴定方法。然而CPC预测lncRNA并没有想象中的这么美好。首先,CPC 本身就不为 lncRNA 鉴定而设计的,它可以根据 BLASTX 的开放阅读框信息和比对结果预测lncRNA ,lncRNA不如mRNA 保守,高比例的 lncRNA 表现出许多类似于蛋白质编码序列的特征 。这会使流程错误地将lncRNA 归类为mRNA。其次,CPC 需要一个高质量且相当全面的数据库,但许多物种的注释信息并不完整,甚至缺少有效的参考基因组。其次,CPC 严重依赖 BLASTX 的输出,但多序列比对工具不能保证最佳比对。最后,极其耗时的比对过程使得在海量数据上使用CPC耗时耗力,需要高昂的运算条件和资源。

2.1.2 无参考的鉴定策略

基于CPC的尴尬使用范围,和不算优秀的可靠性,人们又开发了一系列无参类软件,如CPC2, CNCI, lncRNA MFDL, lncScore, LncADeep, DeepLNC, LncRNAnet, COME, CPAT, lncRScan-SVM, longdist, PLEK, FEElnc, 和LncFinder等。
就LncFinder的作者对同类的深度学习软件进行对比,结果如下图所示:


image.png

LncFinder在各类数据集中基本都有最佳的表现。对于人类和小鼠数据集,CPC 的特异性最高,但敏感性最低,这种不平衡性使得它的综合性能较差。CPC2 仅使用序列内在特征预测 lncRNA,且在人类数据集上的表现比CPC好很多;但是,CPC2 在小鼠数据集上的性能略低于 CPC。对于其他无需对齐的识别工具,CPAT 的准确率高于 CPC、CNCI 和 PLEK,但低于 LncFinder。即使排除了二级结构衍生特征,LncFinder 在人类和小鼠数据集上也取得了最佳性能。加之LncFinder是一个R包可以在各个平台上进行使用,速度也相当的快,不失为一种新lncRNA-seq流程的鉴定工具。

下一期我们将带来LncFinder包的生信实战
最后:如果想了解更多和生信或者精品咖啡有关的内容欢迎关注我的微信公众号:生信咖啡,更多精彩等你发现!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,088评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,715评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,361评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,099评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 60,987评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,063评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,486评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,175评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,440评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,518评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,305评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,190评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,550评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,880评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,152评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,451评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,637评论 2 335

推荐阅读更多精彩内容