FPKM-UQ,FPKM,TPM,count基本计算

FPKM-UQ(Fragments Per Kilobase Million - Upper Quartile)是一种用于量化基因表达的方法,主要用于RNA-seq数据的分析。

FPKM(Fragments Per Kilobase of transcript per Million mapped reads)这是一种常用的标准化方法,用于比较不同样本中基因的表达水平。FPKM考虑了每个基因的长度和测序深度,使得不同基因和不同样本之间的表达量可以直接比较。

然后,FPKM-UQ是FPKM的一个变体,它在计算FPKM之后,还进行了一个额外的标准化步骤。在这个步骤中,所有基因的FPKM值被除以所有基因FPKM值的上四分位数(Upper Quartile)。这样可以进一步减小高表达基因对总体表达水平估计的影响,使得结果更加稳健。上四分位数是指将一个数据集分为四等份后,处于第三个区间的值。

FPKM-UQ是一种更加稳健的基因表达量化方法,特别适合于处理有大量高表达基因或表达差异大的数据。

# 计算FPKM
computeFPKM <- function(counts, lengths) {
  mappedReads = sum(counts)
  geneLengthsKb = lengths / 1000
  fpkm = (counts / geneLengthsKb) / (mappedReads / 1e6)
  return(fpkm)
}

# 计算FPKM-UQ
computeFPKM_UQ <- function(fpkm) {
  upperQuartile = quantile(fpkm, 0.75)
  fpkm_uq = fpkm / upperQuartile
  return(fpkm_uq)
}

# 假设我们有一些基因表达计数和对应的基因长度
counts = c(10, 20, 30, 40, 50)
lengths = c(1000, 2000, 3000, 4000, 5000)

# 计算FPKM
fpkm = computeFPKM(counts, lengths)

# 计算FPKM-UQ
fpkm_uq = computeFPKM_UQ(fpkm)

print(fpkm_uq)

三种获得基因长度的方法(qq.com)

说明:虽然下面有两种计算基因长度的方法,但是目前看来都没有上面这个好

转换公式

countToTpm <- function(counts, effLen)
{
  rate <- log(counts) - log(effLen)
  denom <- log(sum(exp(rate)))
  exp(rate - denom + log(1e6))
}
### FPKM = [counts / (gene length in Kb * total counts in millions)]
countToFpkm <- function(counts, effLen)
{
  N <- sum(counts)
  exp( log(counts) + log(1e9) - log(effLen) - log(N) )
}

fpkmToTpm <- function(fpkm)
{
  exp(log(fpkm) - log(sum(fpkm)) + log(1e6))
}

countToEffCounts <- function(counts, len, effLen)
{
  counts * (len / effLen)
}

这里的efflen就是基因长度或者说总外显子长度

如果你要计算的话,切记用apply对每一列,也就是每个样本进行计算,不要直接把矩阵丢进去

apply(dataexp,2,function)

获取外显子的长度方法1

10.计算FPKM和RPKM (qq.com)

library(TxDb.Hsapiens.UCSC.hg38.knownGene)
txdb<-TxDb.Hsapiens.UCSC.hg38.knownGene
## 定义基因的长度为非冗余exon长度之和
if (F) {
  exon_txdb=exons(txdb) #取出人类基因组中的全部外显子
  genes_txdb=genes(txdb)
  o=findOverlaps(exon_txdb,genes_txdb) # 找出外显子和基因之间的重叠部分
  o
  t1=exon_txdb[queryHits(o)]# 将与gene重叠的exon提取出来
  t2=genes_txdb[subjectHits(o)]
  t1=as.data.frame(t1)
  t1$geneid=mcols(t2)[,1]
  #lapply:历遍列表向量中的每个元素,并且使用指定的函数来对其元素进行处理。返回向量列表。
  # 函数split()可以按照分组因子,把向量,矩阵和数据框进行适当的分组;返回值为列表
  g_l=lapply(split(t1,t1$geneid), function(x){
    head(x)
    tmp=apply(x, 1,function(y){
      y[2]:y[3]
    })
    length(unique(unlist(tmp)))
  })
  head(g_l)
  g_l=data.frame(gene_id=names(g_l), length=as.numeric(g_l))
  save(g_l,file ='hg38_g_l.RData')
}
load('hg38_g_l.RData')
## 下面是定义基因长度为最长转录本长度
if(F) {
  t_l=transcriptLengths(txdb)
  head(t_l)
  t_l=na.omit(t_l)
  t_l=t_l[order(t_l$gene_id, t_l$tx_len, decreasing = T),]
  str(t_l)
  t_l=t_l[!duplicated(t_l$gene_id),]
  head(t_l)
  g_l=t_l[,c(3,5)]
}
 head(g_l)
 library(org.Hs.eg.db)
 s2g=toTable(org.Hs.egSYMBOL)
 head(s2g)
 gl=merge(g_l,s2g,by='gene_id') # merge函数可以实现对两个数据框根据共同的列名来进行连接。

获取外显子的长度方法2

Htseq Count To Fpkm | KeepNotes blog (bioinfo-scrounger.com)

library(GenomicFeatures)
txdb <- makeTxDbFromGFF("hg38.gtf",format="gtf")
exons_gene <- exonsBy(txdb, by = "gene")
exons_gene_lens <- lapply(exons_gene,function(x){sum(width(reduce(x)))})


如何优雅的统计基因外显子长度 - 云+社区 - 腾讯云 (tencent.com)

能不能反过来算

很多的时候我们从数据库中得到的不是原始数据count,而是fpkm或者是log2(fpkm+1),那么我们就想知道能不能反过来进行计算?

这里说一下结论,之前简单推了一下(不知道有没有错),发现是没有办法反过去算的,比如你只知道FPKM,想逆过来算count,按照上面的公式,你会发现,你得先知道Count的内容,比如总的count的数量,才能逆过来计算Count,否则没法计算。这就是死循环。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容

  • 本文转自知乎:WizNote 望之_ 1.基础准备 1.1 题库 买一本三级网络技术题库或者是题库软件(20 元左...
    Seven_Xiong阅读 4,013评论 2 30
  • 由reads count数计算TPM 和FPKM下载gff文件http://venanciogroup.uenf....
    欧阳松阅读 4,765评论 0 11
  • 16宿命:用概率思维提高你的胜算 以前的我是风险厌恶者,不喜欢去冒险,但是人生放弃了冒险,也就放弃了无数的可能。 ...
    yichen大刀阅读 6,041评论 0 4
  • 公元:2019年11月28日19时42分农历:二零一九年 十一月 初三日 戌时干支:己亥乙亥己巳甲戌当月节气:立冬...
    石放阅读 6,876评论 0 2
  • 今天上午陪老妈看病,下午健身房跑步,晚上想想今天还没有断舍离,马上做,衣架和旁边的的布衣架,一看乱乱,又想想自己是...
    影子3623253阅读 2,908评论 1 8