ID转换以及LncRNA和mRNA相关性分析

基因注释

UCSC Xena的基因注释文件gencode.v22.annotation.gene.probeMap,下载方式,打开所研究癌种的count/FPKM页面,找到probeMap,下载即可

#读入下载于UCSC Xena的基因注释文件,怎么下载呢,上边说啦
probeMap <- read.table("TCGAdata/gencode.v22.annotation.gene.probeMap",sep = "\t" , header = T)  #加载TCGA官方基因注释文件probeMap
dim(probeMap)  #60483个基因探针对应文件     6列
probeMap[1:4,1:6]  #6列分别是 基因id,基因名,染色体位置,染色体起,止以及正反链
                                 id         gene chrom chromStart chromEnd strand
1 ENSG00000223972.5      DDX11L1  chr1      11869    14409      +
2 ENSG00000227232.5       WASH7P  chr1      14404    29570      -
3 ENSG00000278267.1    MIR6859-3  chr1      17369    17436      -
4 ENSG00000243485.3 RP11-34P13.3  chr1      29554    31109      +
nrDEG[1:4,1:4]  #之前我已用limma voom筛选到的LncRNA差异基因,行名为 Ensembl 基因 ID(带有版本号),第一次尝试奥,都是自己摸索的。
rownames(nrDEG) <- probeMap[rownames(nrDEG)%in%probeMap$id,2]  #用注释文件将nrDEG行名(Ensembl 基因 ID )转换为gene symbol(probeMap第二列) 
head(rownames(nrDEG) )#查看nrDEG行名前6个,判断转换是否成功
save(nrDEG,file = "anno_nrdeg.Rdata")   #保存为Rdata文件
load ("anno_nrdeg.Rdata") #读入Rdata文件,即载入nrDEG,方便后续操作,也省得再次运行上述代码。
###读入坏死性凋亡相关基因名并命名为hs_hypotosis
hs_hypotosis <- data.table::fread("TCGAdata/gene.txt",header = T)
#为了进行后续的提取坏死性凋亡相关基因,我们对全部的表达矩阵进行ID转换一下
all_count_stad[1:4,1:4] #查看表达矩阵
                  TCGA-D7-5577-01A TCGA-D7-6818-01A TCGA-BR-4280-01A
ENSG00000242268.2                0                0                0
ENSG00000259041.1                0                0                0
ENSG00000270112.3                0                2                0
ENSG00000278814.1                0                0                0
                  TCGA-D7-8572-01A
ENSG00000242268.2                4
ENSG00000259041.1                0
ENSG00000270112.3                5
ENSG00000278814.1                0
#对表达矩阵进行ID转换
all_count_stad$symbol <- probeMap[probeMap$id%in%rownames(all_count_stad),2]
###利用limma包中的 avereps函数对重复基因取平均最大值并去重,转换为数据框赋值给TCGA_gset 
library(limma)
TCGA_gset = as.data.frame(avereps(all_count_stad[,-ncol(all_count_stad)],ID = all_count_stad$symbol) )   #经过数据检查,发现存在多个重复的基因名,这句代码是去重复的(重复原因:许多测序序列会比对到转录组的相同位置)
#提取坏死性凋亡相关基因
hs_relate_gene <- TCGA_gset[rownames(TCGA_gset)%in%hs_hypotosis$Genes,]

  • 相关性分析,输入数据:LncRNAcount矩阵(行为样本,列为基因),mRNA count矩阵 (行为样本,列为基因),本例中分别为lncRNA_expr,hs_relate_mRNA
  • 输入数据的准备
lncRNA_anno[1:4,1:4]  #注释后的DElncRNA
##lncRNA 表达矩阵准备  行 样本,列基因
lncRNA_expr <- TCGA_gset[rownames(TCGA_gset)%in%rownames(nrDEG),]
lncRNA_expr <- t(lncRNA_expr)
str(lncRNA_expr)
#坏死性凋亡相关基因矩阵准备  行样本,列基因
hs_relate_mRNA <- t(hs_relate_gene)
#查看数据
dim(hs_relate_mRNA)  # 547  10
dim(lncRNA_expr)  #547 1076
hs_relate_mRNA <- hs_relate_mRNA[,-4]  #检查数据后发现,第四列数据标准差为0,会导致无法计算相关性,所以这一步去掉它,原因呢,就推荐大家自行百度一下统计相关性计算部分

正式开始

cor_matrix<- Hmisc::rcorr(lncRNA_expr,hs_relate_mRNA)
##自定义函数将结果转换为四列,行,列,cor ,pvalue
flattenCorrMatrix <- function(cormat, pmat) {
  ut <- upper.tri(cormat)
  data.frame(
    lncRNA = rownames(cormat)[row(cormat)[ut]],
     gene= rownames(cormat)[col(cormat)[ut]],
    cor  =(cormat)[ut],
    p = pmat[ut]
  )
}

cor_lncRNA<- flattenCorrMatrix(cor_matrix$r,cor_matrix$P)
dim(cor_lncRNA)
cor_lncRNA$regulation <- ifelse(cor_lncRNA$cor>0,"positive","negative") #正相关为positive,负相关为negative
library(dplyr)
hs_relate_lncRNA <- cor_lncRNA[intersect(which(cor_lncRNA$p<0.001),which(cor_lncRNA$cor>0.4)),]#筛选条件 p<0.001 and cor>0.4
dim(hs_relate_lncRNA)  #查看数据维度
![image.png](https://upload-images.jianshu.io/upload_images/27731909-b2f4f97db3a98b30.png?imageMogr2/auto-orient/strip%7CimageView2/2/w/1240)

最后,结果还是有点小问题(😵),不过大概流程还可以哈! 共同学习进步,加油!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 214,029评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,238评论 3 388
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,576评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,214评论 1 287
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,324评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,392评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,416评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,196评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,631评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,919评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,090评论 1 342
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,767评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,410评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,090评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,328评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,952评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,979评论 2 351

推荐阅读更多精彩内容