【转录组学】featureCounts软件中的length是怎样计算的?

分析过程

  • 以rela基因为例,featureCounts结果文件“all.id.txt”中提供的信息为:
Geneid  ENSMUSG00000024927

Chr 19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19;19  

Start   
5687511;5687747;5687857;5687961;5687972;5687987;5688460;5688460;5688460;5688460;5688579;5688579;5688579;5688579;5688579;5688579;5688883;5688883;5688883;5688883;5688883;5689887;5689887;5689887;5690331;5690331;5690331;5690331;5691174;5691209;5691209;5691209;5691492;5691492;5691492;5691492;5695353;5695353;5695353;5695353;5695541;5695541;5695541;5695541;5696622;5696828;5696828;5696828;5696828 

End 
5687869;5687869;5687869;5688004;5688176;5688176;5688486;5688486;5688486;5688486;5688724;5688730;5688730;5688730;5688730;5688730;5689031;5688997;5689031;5689031;5689031;5689978;5689978;5689978;5690460;5690462;5690462;5690462;5691313;5691313;5691313;5691313;5691704;5691704;5691704;5691704;5695433;5695433;5695433;5695433;5695615;5695615;5695615;5695615;5696726;5697104;5697451;5697636;5698158 

Strand  
+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+;+   

Length  
3072    
  • 接下来用R语言进行分析:
    1. 提取featureCounts结果中的信息
# 加载需要用到的包
library(tidyverse)
# 读取featureCounts结果
all=read.table(file = "./featureCounts/all.id.txt",header = T)     
# 提取rela基因行
a=all["ENSMUSG00000024927",]
# 提取strat和end信息
b=t(str_split(a$Start,pattern = ";",simplify = T))
c=t(str_split(a$End,pattern = ";",simplify = T))
d=cbind(b,c)
d=as.data.frame(d)
# 计算每个片段的长度
d$l=as.numeric(d$V2)-as.numeric(d$V1)
每个片段的长度

发现并没有“Length 3072”这个信息

2. 计算所有这些片段合并后的长度

e=c()
for(i in 1:nrow(d)){
   e=union(e,d[i,1]:d[i,2])
}
length(e)
# [1] 3072

正好是featureCounts结果文件中提供的Length值!

结论

featureCounts结果文件中提供的Length值是所有片段合并后的长度

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容