文献_circle RNA鉴定软件相关

[1]Szabo L, Salzman J. Detecting circular RNAs: bioinformatic and experimental challenges[J]. Nature Reviews Genetics, 2016, 17(11):679-692.
[2]Zeng X, Lin W, Guo M, et al. A comprehensive overview and evaluation of circular RNA detection tools[J]. Plos Computational Biology, 2017, 13(6):e1005420.
[3]Hansen T B. Improved circRNA Identification by Combining Prediction Algorithms.[J]. Frontiers in Cell & Developmental Biology, 2018, 6.
生信草堂
cirRNA

1. cirRNA概述

环状RNA(circular RNA)是区别于线性RNA 的一类新型环状非编码RNA,目前在人、小鼠、线虫等模式生物中已被大量发现,长度约200-2000bp,主要长度分布在500bp左右,具有物种保守性和组织特异性。其独特的环状结构使其不容易被RNA 酶降解,因此在细胞内稳定性很强,在新型生物标记、生物学机制研究等方面具有巨大的潜力和研究价值。
circular RNA大多数来源于外显子(即注释的外显子边界上或者包含经典的剪切信号的位置 (spliceosome)),少部分由内含子直接环化形成。(Circular RNA (circRNA) is mainly generated by the splice donor of a downstream exon join- ing to an upstream splice acceptor, a phenomenon known as backsplicing[反向剪接反应].[2])大多数的环状亚型 (isoforms) 只能产生1-2个可区分的circRNA,但是也有个例。大部分细胞中的circRNA丰度在2-4%左右,但有些细胞类型中也会有较高水平。虽然circRNA mini-gene包含核糖体嵌入位点 (IRES)启动翻译,但是非编码是circRNA普遍的规律。
目前研究最多的就是由外显子形成的环状RNA ,这些环状RNA 位于细胞质中,含有大量miRNA 结合位点,可起到miRNA 海绵作用(miRNA sponge),结合并封闭miRNA 的调控作用,从而使其靶基因表达增强。

  • 环状RNA的生成机制(Salzman et al. 2012. PloS ONE)


    环状RNA的生成机制.jpeg

形成有四种模式,a:套索驱动的环化 ;b:内含子碱基配对驱动环化;c:单个内含子成环 ;d:RNA结合蛋白驱动环化。

经典的线性RNA剪切方式:
通过内含子中的GU/AG序列,将前后外显子首尾相连。
环状RNA的剪切方式:
反向剪切,后面外显子的尾端与前面外显子的前端相连。

  • 环状RNA的稳定性


    环状RNA的稳定性.png

    由于环状RNA 的结构是保守的闭合环状所以可以抵抗核酸外切酶的降解作用,在细胞内比较稳定,half time > 48h。但在血清中非常不稳定,half time 大概是15s。

  • 环状RNA的功能(Hentze et al. 2013. The EMBO Journal)
    A、ceRNA(内源竞争性RNA)调控方式
    B、与蛋白质一起影响mRNA表达
    C、少数circRNA含有ORFs编码蛋白[3]


    环状RNA的功能.jpeg

2. NGS技术发现环状RNA原理

NGS技术发现环状RNA原理.jpeg

通过spliced reads的mapping能发现线性RNA和环状RNA的剪切方式不同。一个是正常的5’/3’前后剪切,一个是反向的5’/3’反向剪切(Memczak et al.2013.Nature)。

  • 建库策略比较
建库方式比较 普通的lncRNA 建库 环状RNA 的特有的建库
建库特点 去除样本中的核糖体RNA,然后对线性RNA 和环状RNA 进行测序 去除样本中的核糖体RNA之后进一步消化样本中的线性RNA
优点 不仅可以检测样本中的环状RNA,还可以一次性检测样本中的其它线性RNA,如mRNA、lncRNA ①便于比较环状RNA 和其他类型RNA 的相对丰度;②进行共表达分析,分析环状RNA 和其他功能已知的RNA(尤其为mRNA)的相互作用关系,从而推测环状RNA 的功能。 排除了线性RNA 的干扰,提高数据可靠性和利用率。
局限性 环状RNA 有效数据量低,不易检测到低丰度的环状RNA,因为样本中大部分都是线性RNA;同一基因转录出的线性RNA 会干扰环状RNA 的检测,从而提高了环状RNA 检测的假阳性。 建库价格比常规文库高;缺失了样本中的线性RNA信息。
  • 环状RNA 测序数据量
    如果使用环状RNA 建库的策略,建议测序量不低于6G/样本(植物);
    如果采用普通lncRNA 文库,建议植物的测序量不低于12G/样本,动物则推荐16G/样本以上的测序量。

  • 建库策略的选择
    如果是环状RNA 未报导的物种,建议优先采用环状RNA 建库的策略,以便对环状RNA有更好的检测效率,发现尽可能多的环状RNA。
    如果是环状RNA 已报导,且认为目标环状RNA 有较高的丰度,同时又特别关心环状RNA 与其他线性RNA 的相互作用关系,则可以考虑使用普通lncRNA 文库的策略。

3. 面临的问题和挑战

  • 识别剪切过程中的挑战

精确的剪切位置比对识别。
使用注释可以提高识别的精确度。
一些circRNA包含A-rich序列,因此对poly(A)+ RNA文库测序结果需要通过算法过滤低表达的mRNA 转录本。

  • 实验设计中的挑战

circRNA没有poly(A)尾巴,可以通过此特征进行纯化。
由于RNA测序片段大小的选择,只有在接头扩增前,RNA没有被打断的情况下,可能会影响circRNA的识别。
反转录模板可能会导致technical artefacts,产生假阳性。
长同源序列会促进模板转换 (template switching), 对于基因产生多个共享同构外显子 (constitutive exons) 的亚型来说是一个很严重的问题。

  • 生信分析中的挑战

单向测序可能导致反向剪切位置的来源的误判。
外显子附近的简并序列产生同源性和测序错误可能导致假阳性。
对于线性剪切的探测可以增加识别灵敏度,但是实际上导致了高假阳性率。

  • 降低假阳性的方法:双端测序、更高的读取范围可提高识别敏感度,更多样本重复、RNase消化线性RNA以及统计方法将降低假阳性。

4. cirRNA识别算法的比较

A comprehensive overview and evaluation of circular RNA detection tools

4 different datasets

(1) positive dataset: a dataset of simulated reads, encompassing a total of 14,689 circRNAs detected in HeLa cells from CircBase
(2) background dataset: a large negative dataset comprised of reads generated from mRNA sequences deposited in the NCBI Reference Sequence (RefSeq) database
(3) mixed dataset, generated by combining the positive and background datasets together
(4) real datasets. These real datasets were established by downloading 6 runs of rRNA-depleted RNA- Seq data from NCBI Sequence Read Archive (SRA), including 4 runs of RNA-Seq data from the HeLa cell line and 2 runs from an immortalized human fibroblast cell line (Hs68), of which, 2 runs of RNA-Seq data from the HeLa cell line and 1 run from Hs68 were further treated with RNase R enzyme during sample preparation.

(1)阳性数据集:circBase数据库中的Hela细胞来源的14689种circRNA。
(2)背景数据集:NCBI中RefSeq数据库来源的mRNA reads。
(3)混合数据集:阳性数据集和背景数据集混合构成的数据集
(4)真实的数据集:真实独立的测序数据,包括4个来自Hela细胞和2个来自人永生化纤维细胞系Hs68的去除核糖体测序数据。其中的2个来自Hela细胞和1个来自人永生化纤维细胞系Hs68用RNase R处理。

阳性数据集

精确度 & 灵敏度

Table1 Summary of accuracy measures on the positive and mixed datasets
F1 = (2 * precision * sensitivity)/(precision + sensitivity)
AUC(Area under Precision-Recall Curve) 精密召回曲线面积
  • regarding the F1 measure, KNIFE, CIRI, PTESFinder, Segemehl, and CIRCexplorer were the top 5 performers on this dataset, with an F1 score above 0.85.
  • Also, KNIFE, Segemehl, CIRI, PTESFinder and CIR- Cexplorer achieved the best sensitivity.
  • Consistent with the F1 measure, the same 5 methods still performed best in terms of AUC

KNIFE、CIRI、PTESFinder(PF)、Segemehl(SG)和CIRCexplorer(CE)F1 Score打分最好,AUC值最高。

阴性数据集

假阳性率

table2 Overview of circRNA candidates detected on the background dataset
  • NCLScan, MapSplice, CIRCexplorer, DCC, and PTESFinder tended to have a low false-positive rate, whereas Segemehl, find_circ and UROBORUS yielded the worst performance

NCLScan(NCLS)、MapSplice(MS)、CIRCexplorer(CE)、DCC和PTESFinder(PF)是最好的,假阳性率最低。Segemehl(SG)、 find_circ (FC)和UROBORUS(UB)的假阳性率最高。

模拟数据集(混合数据集)

Table 1 shows that NCLScan maintains the highest precision, while KNIFE, CIRI, PTESFinder, CIRCexplorer, and Segemehl exhibit the best with regard to F1 measure

Fig2 shows that Segemehl, find_circ, and UROBORUS Segemehl, find_circ, and UROBORUS were vulnerable to background noise. Meanwhile, KNIFE, CIRI, and circRNA_finder suffered minor loss of precision (−3.39%, −1.21%, and −0.56%, respectively), On the other hand, small decreases of sensitivity (−4.46%, −2.90%, and −0.87%) were only observed for UROBORUS, Segemehl, and KNIFE.

NCLScan, CIRCexplorer, DCC, Mapsplice, and PTESFinder were robust to background noise.

fig2. P_S_curver.png

Fig1(b) In general, NCLScan and CIRCexplorer dominated other tools regarding the precision measure, while KNIFE, CIRI, Segemehl, PTES- Finder, and CIRCexplorer continued to be more sensitive than the rest of the tools.

The highest AUC achieved on this dataset was KNIFE (0.87), followed by CIRI (0.85), PTESFinder (0.83), Segemehl (0.80), and CIRCexplorer (0.78)

NCLScan(NCLS)预测的准确性最好。而SG、FC和UB的准确性都有大幅度的下降,说明这些工具都不同程度的受到了阴性数据的干扰。而KNIFE、CIRI和CF也受到了小幅的影响。值得注意的是NCLScan、CE、DCC、MS和PF似乎不受非circRNA的干扰因素影响。总体而言,NCLScan和CIRCexplorer的精确性最好,KNIFE、CIRI、Segemehl、PTESFinder和CIRCexplorer比其他剩余的工具的灵敏性更佳。AUC值靠前的几个工具包括:KNIFE (0.87),CIRI (0.85),PTESFinder (0.83),Segemehl(0.80),CIRCexplorer (0.78)。



Precision-recall Curve for the 11 circular RNA detection tools on synthetic positive and mixed datasets

真实数据集

Table 3. Comparison of circRNA candidates detected with and without RNase R treatment.

默认RNase R消化后将线性RNA完全去除而保留所有的circRNA(实际情况有可能线性RNA会有个别的没有被消化,而某些circRNA则可能会被消化)

  • RNase R处理前后结果差异分析
    比较RNase R处理前后分析得到的circRNA的情况,计算每个工具获得的阳性结果在RNase R处理前后信息丢失的比例。
    (Table3)从比较RNase R处理前后circRNA差异的情况,RNase R处理后的确实现了circRNA的富集,大部分的工具所分析的RNase R处理后的阳性结果率均有大幅增加,但PTESFinder、 Segemehl和UROBORUS的情况则不太理想。MapSplice工具分析得到的RNase R处理前后未被丢失的比例最高,CIRI和CIRCexplorer的情况也不错。总体而言,除了find_circ、 UROBORUS和Segemehl,其他大部分工具情况比较接近,在Hela样本中这一比例在65 ~75%之间,在Hs68样本中这一比例在72 ~80%。

  • 不同工具之间数据可重现性比较,计算特定方法所获得的circRNA记录与其它方法获得的circRNA记录重叠性比例。
    通过比较特定工具的结果与所有工具均可检测出的结果中的占比情况,计算两个工具共同检测到的circRNA记录在特定方法获得的circRNA记录中的占比,比例越高则认为该方法的精确性越好,此外,如果一个工具所得到的特定reads出现在其它方法中的比例越高,则说明该工具的灵敏性越好(假阳性率相对较低)。这样的两两分析,给出了每个方法相对于其它所有方法的精确性程度的分布热图。结果表明,NCLScan的精确性最好,而CIRI 和 Segemehl的灵敏度最高。UROBORUS的表现则与样本有关。

P(i,j) = C(i,j)/Ni
P(j,i) = C(i,j)/Nj


CoveragebetweencircRNAdetectionmethodson(a)HeLaand(b)Hs68RNaseR–treateddata
  • Reads水平精确性比较,比较特定circRNA对应的Reads数。
    在RNase R消化后的数据集中,比较不同工具在特定circRNA上分析得到的Reads数,越高说明精确性越好。从Reads水平的精确性结果来看,这些工具可分为四个类型:MapSplice、CIRI和PTESFinder的精确性最好。紧接着是KNIFE、 find_circ和Segemehl。CIRCexplorer、circRNA_finder和DCC(三种工具均基于STAR比对算法),还有NCLscan的情况一般。UROBORUS的情况最差。

  • 对指定的已获得验证的circRNA分析准确性分析,基于17例测序结果人为构建一个包含282种circRNA的数据集,比较各种方法所得到的circRNA数目。


    Fig 5. Number of experimentally verified circRNAs detected by each method

从17个独立研究的文献中找出282种circRNA,看每一个工具从数据集中将这些circRNA分析出来的情况。这282种circRNA均已得到实验验证,属于客观真实的circRNA,但不一定都会在Hela或Hs68的样本中存在。从分析的结果来看,CIRI检测出来的种类最多。

  • 计算经济性比较


    cost overview

通过比较各个工具完成分析的时间,对硬盘空间和存储空间的需求。运行时间方面,作者通过运行一个较大数据量的任务,均分配三个线程,结果表明CIRCexplorer、circRNA_finder、DCC、CIRI和find_circ可以在一天之内完成,而MapSplice工具运行时间则高达13天至一个月不等。
在存储性能要求方面,仅有UROBORUS和find_circ工具能在PC机的性能参数范围(8G RAM)完成任务。NCLScan要求大约10 GB。CIRCexplorer、circRNA_finder和DCC需要大约27 GB来运行STAR比对。Segemehl则要求高达50 GB。
对于物理存储空间的需求,MapSplice、PTESFinder、KNIFE、Segemehl、CIRI和NCLScan对存储空间的要求都不高。

讨论

每种计算工具均有各自的优缺点,没有一个工具各项对比中完全占据优势的。综合而言,CIRI、 CIRCexplorer和KNIFE工具在各个性能指标中相对比较平衡,是最值得选择的工具。但具体到分析任务中最好还是根据所需分析的特点进行工具选择。

overview

Improved circRNA Identification by Combining Prediction Algorithms

  • RNase R处理前后结果差异分析灵敏性和特异性
  • de novo circRNA 预测
  • 两两算法结合评价,可以两两获益
    之前作者分析了5种鉴定软件,此次扩展到11种。


    image.png

数据

RNA sequencing (RNAseq) samples (see Supplementary Figure 1A) were downloaded from the Sequence Reads Archive (SRA)

The gold-standard biochemical delineation of circRNA and linear RNA is by RNaseR treatment, which on a global scale enriches circRNA significantly
1)长链circRNA易被消化
2)特定的线性RNA,如高GC含量的RNA不易被消化

不知道阳性、假阳性信息

Gene-annotations were collected from UCSC genome browser (UCSC Genes track), iGenomes (hg19.ref.gtf ), and Ensembl (Homo_sapiens.GRCh37.66.gtf )

RNase R Resistance

  • Fig1A 显示RNase R的对不同软件预测circRNA的影响,经酶处理后circRNA缺失11%-47%,
  • Fig1B 测试各软件的灵敏度。所有软件共同鉴定的circRNA共256个,各软件鉴定出的每个公共circRNA的平均reads数定义为其灵敏度。DCC, circRNA_finder, and Uroborus (11,9,5)灵敏度最差。
  • Fig1C 测试特异性。CIRI对RNaseR 消化的那部分的circRNA特异性最高,达到63%,表明其鉴定的假阳性最高。同时Fig1D显示CIRI对这部分的circRNA的表达量鉴定最高。这部分假阳性结果表达量最高的14种来自14个不同位点。其中8个来自CIRI。
  • Fig 1D还表明真实的circRNA表达量比假阳的表达量要高




Raw vs. Trimmed Reads

image.png
  • Fig2A 对raw和trim处理的reads进行分析,结果相似,预测的结果增加0%-27%,但假阳性也增加了13%-67%。
  • Fig2B trim后提高了鉴定circRNA的reads数,特别是KNIFE,但是circRNA_finder and Uroborus的结果质量反而降低了。
    因此数据质量和接头序列的长度对鉴定circRNA都有一定影响。

De Novo Prediction

image.png
  • Fig3A 显示5% of total circRNA output为de novo circRNAs,假阳性占了很大的比例
  • Fig 3B ACSF, CIRCexplorer2 and KNIFE可以对de novo circRNAs注释,但效果不好。KNIFE这个软件对没有注释的部分表现最不好,他对de novo的注释也就不可信了。
    这里,CIRI2的预测结果最为可信(serves as the most trustworthy predictor)
  • Fig 3C CDR1as/ciRS-7 (Hansen et al., 2011, 2013; Memczak et al., 2013; Piwecka et al., 2017)是一种没有注释的低表达的circRNA,这里CIRCexplorer2外其他的软件都能检测到

Improving Find_Circ

提高mapping阈值可以提高find_circ的预测准确性。
if find_circ is the algorithm of choice for circRNA prediction, it is highly recommendable to increase the mapping quality threshold

假阳性

ciRS-7/CDR1as是一种经典的circRNA,但可被RNaseR消化,表明至少在Hs68细胞中不是可靠的circRNA;ciRS-7被miR-671线性化从而被RNaseR消化;被RNaseR处理的样本中有很多假阴性,长的circRNA也能被消化。

Combining Prediction Algorithms

  • Fig4A 通常情况下,两两软件结合可以降低10%至15%以上的被RNaseR消化的候选circRNA。
  • Fig4B 显示两两软件分析的结果丢掉的是低丰度的候选circRNA。当使用5+或者10+的软件筛选出的circRNA有非常明显的高丰度和RNaseR抗性,筛掉的通常是假阳性和低表达的circRNA。
  • 选择两两软件分析时建议算法不相关。Fig4A显示circRNA_finder和DCC(STAR)的结合效果不理想。
iTP:index of true positives, reflecting the fraction of preserved circRNAs with RNaseR resistance after conjoining with any other algorithm
iTN:discarded true negatives 1-iTP
Complementary score = (iTPxiTN)∧2
  • Fig 4C 显示CIRI, find_circ, and Uroborus互补性最高
image.png

image.png

image.png

FIGURE 4

Reproducibility

  • 数据 subset of samples from Mercer et al. (2015)
    同上述结论一致,MapSplice 表现的最好,MapSplice or CIRI2与其他软件的互补性最好。
    因此,推荐用两个或以上软件预测circRNA
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,242评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,769评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,484评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,133评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,007评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,080评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,496评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,190评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,464评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,549评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,330评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,205评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,567评论 3 298
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,889评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,160评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,475评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,650评论 2 335

推荐阅读更多精彩内容

  • 1 近日,各大媒体的头条,估计都被河南南阳的一所学校的视频霸占了。而且评论数超过五位数,一时之间,关于学校该不该砸...
    龙妮妮阅读 900评论 1 3
  • 小时候希望自己快快长大,可是长大了,却又想回到从前,去过那种无忧无虑的孩童生活。生活啊!真的很矛盾。怎样才可以让...
    冬天没有心跳阅读 167评论 0 0
  • 早起慵坐瞧秋意,淡风轻云薄寒气。 鸦鸣树语私私嬉,小儿无赖吹蒲絮。
    墨言0阅读 252评论 4 0
  • 早起发现自己前一天想好的衣服搭配根本不现实,又翻箱倒柜的找出来一件毛衣裙套装来穿,然后又赶紧吃饭,手忙脚乱地收拾出...
    七未笙阅读 170评论 0 0
  • 1排2班-小妖 之前感觉自己就是一个拥有时间的“富人”,每天都有几小时可以挥霍,电脑,网站,发呆,看视频,干什么都...
    小妖Troy阅读 278评论 5 9