Featurecounts:比对计数工具

按道理,featurecount应该是转录组分析中最基本的工具,但由于没有深挖其中的参数,前段时间在用它处理转录组数据时还是吃了大亏。现在将一些常用的参数记录下来:

首先在计数水平上:

分为feature和meta-feature,feature是值基因组上被定义为一个片段区域,meta-feature是指多个feature组成的区域,如exon和gene的关系,分享相同的feature identifier (GTF文件中有)的feature属于同一个meta-feature
featurecount的 "-t" 参数:设置feature-type,“-t” 指定的必须是gtf中有的feature,同时read只有落到这些feature上才会被统计到,默认是“exon”,即以exon为最小单位(feature)去回帖计数。
featurecount的 "-f" 参数:设置之后将会统计feature层面的数据,如exon-level;否则会统计meta-feature层面的数据,如gene-levels;
默认 "-f" 一般不设置,并与 “ -t exon" 结合使用,表明:在exon-level上计数,共享相同gene identifier(隶属同一meta-feature)的exon相加。否则就是在meta-feature层面上得到计数统计数据,即每一个得到的count矩阵以exon为行名。
参考:featurecounts的使用说明 - 简书 (jianshu.com)

A feature is an interval (range of positions) on one of the reference sequences. A meta-feature is a set of features that represents a biological construct of interest. For example, features often correspond to exons and meta-features to genes. Features sharing the same feature identifier in the GTF or SAF annotation are taken to belong to the same meta-feature. featureCounts can summarize reads at either the feature or meta-feature levels.

次就是链特异性的问题:

featurecounts使用参数 "-s <0|1|2> " 来定义链特异性,”0“ 表示普通文库,默认;”1“表示stranded链;”2“表示reversely stranded;
测序方案是链特异性文库。在使用Hisat2或 STAR等比对工具时,通过指明链特异性的参数,会在生成的bam文件中对每一条read添加 “ read 方向” 信息,featurecounts 通过 -s 参数来识别 read 方向,结合GTF文件判断该read 是否真的在该feature上,是否能够被计数。
通常而言,如果时链特异性文库,被当成普通文库,后续差别不大;而如果时普通文库,被当成链特异性文库,则差别就会很大。

一般转录组数据使用以下命令:
featureCounts -p -t exon -g gene_id -a annotation.gtf -o counts.txt mapping_results_SE.bam

下面用不同的参数对同一批转录组数据计数结果:###

##情况1: 
featureCounts -T 5 -p -s 2 -t gene -g gene_id -a genome.gtf -o all_matrix ./*bam 
#[all_matrix.summary] 
Status                 mock.bam             WT-H-11d.bam 
Assigned               19515146             19585577
Unassigned_Unmapped    1678230              1482804 
Unassigned_NoFeatures  18289861             18254838 
Unassigned_Ambiguity   278186               434598 
#Successfully assigned alignments: 
mock.bam: 19515146 (43.6%) 
WT-H-11d.bam: 19585577 (44.1%) 

##情况2: 
featureCounts -T 5 -p -t gene -g gene_id -a genome.gtf -o all_matrix2 ./*bam 
#[all_matrix.summary] 
Status                 mock.bam             WT-H-11d.bam 
Assigned               34510666             3451129 
Unassigned_Unmapped    1678230              1482804 
Unassigned_NoFeatures  789427               593567 
Unassigned_Ambiguity   2783100              3170156 
#Successfully assigned alignments: 
mock.bam: 34510666 (77.0%) 
WT-H-11d.bam: 34511290 (77.8%) 

##情况3: 正常命令行 
featureCounts -T 5 -p -t exon -g gene_id -a genome.gtf -o all_matrix3 ./*bam 
#[all_matrix.summary] 
Status                 mock.bam             WT-H-11d.bam 
Assigned               32210883             33904184 
Unassigned_Unmapped    1678230              1482804 
Unassigned_NoFeatures  4921182              3315212 
Unassigned_Ambiguity   951128               1055617 
#Successfully assigned alignments: 
mock.bam: 32210883 (71.9%) 
WT-H-11d.bam: 33904184 (76.4%)

从结果上可以看到:如果将普通文库当作链特异性文库(-s 2 ,情况1),会造成assigned的reads非常低,featurecount成功比对率低;
在比较feature 水平定义层面上的问题时,如果将feature level定义为 gene(-t gene,情况2),会造成Unassigned_Ambiguity非常多,且在实际的计数中会发现,all_matrix2基因数量和表达量都要低于all_matrix3(-t exon,情况3)。
根据定义:在使用 -t gene,即情况2下,以gene为最小的单位(feature)去回帖计数时,以下两种情况会被定义为Unassigned_Ambiguity;而使用exon为feature时,这种Unassigned_Ambiguity的情况则会大大减少

06E2496690D040D694F5FA6A34F6692F.jpg
转录组入门(6): reads计数 - 简书 (jianshu.com)

  • Unassigned NoFeatures: alignments that do not overlap any feature.
  • Unassigned Ambiguity: alignments that overlap two or more features (feature-level summarization) or meta-features (meta-feature-level summarization) ==无法确定分配到哪个基因
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容