小鼠基因探针注释

转录组测序目前主要有两种形式,RNA-seq和microarry。这两种技术产生的数据在GEO数据库中都有很多,其中RNA-seq的数据大多是已经注释过的symbol为行名的矩阵,可以拿来直接用;而芯片数据还需要我们自行转化为symbol。相信很多小伙伴都做过人的基因探针注释,这套体系也很完善,有专门的数据库,R包,和一些小工具。然而小鼠的基因探针注释还不是很成熟,今天小编就来分享一下小鼠基因探针的注释。

PS(因为小编自己代码能力水平不高,也是经高手指点,如有疑问,可以在下方留言。)

说到基因探针注释,肯定需要GPL文件,大多数数据来源作者会自己上传到GEO同一个序列号下,大家注释前需要一同下载

相信自行注释过探针的小伙伴,第一反应肯定像小编一样都是找GPL文件中有没有symbol那一列,如果有的话直接提取出来就好啦,如果都是这样,小编也没有必要写这个推文啦,写就写点特别的,比如GPL11533-9491这个注释文件,呐


snipaste_20210313_001826.png

明显没有咱们想要的那一列呀,肿末办。

"一开始我只顾着看你,所以认不清...."

有人会说可以找出GB_ID再转换成symbol,很好,开始小编也是这样想滴;然而,这样转成另一种ID还是不会注释呀,对不对,所以肯定还得想别的法子
桥豆麻袋,我好像看到了什么


snipaste_20210313_002140.png

熟悉而又陌生的你,这不就是小鼠的symbol,真是踏破铁鞋五米处,得来全都靠视力。
我只要把这列的信息提取出来,再稍微加工一下,是不是就.....

那么,开始展示

1.准备需要的GPL文件

library(tidyverse)
setwd("E:\\小鼠ID转化")
rm(list=ls())
# 制作注释文件
GPL <- read.delim("ann.txt",stringsAsFactors=FALSE,skip = 12 )#skip去除前面无用信息
colnames(GPL)
class(GPL)
GPL <- GPL[,c("ID","gene_assignment")]
a <- str_extract(GPL$gene_assignment,"ENSMUST(.+)//(.+)")#切割字符
head(a,5)
b <- str_split(a,"//",n=3,simplify = T)[,2]#取第二部分symbol的信息
head(b,5)
GPL$gene_assignment <- b
c <- str_detect(GPL$gene_assignment,"")
head(c,5)
GPL <- GPL[c,]
GPL$gene_assignment <- str_trim(GPL$gene_assignment) 
head(GPL)
write.table(GPL,"anno_gpl_new.txt",sep = "\t",row.names = F)

2.制作矩阵文件

probeMatrix <- data.table::fread("probeMatrix.txt")
data <- merge(probeMatrix,GPL,by.x = "ID_REF",by.y = "ID")
table(is.na(data$gene_assignment))
exprSet <- data %>% 
  column_to_rownames(var="ID_REF") %>% 
  #重新排列
  select(gene_assignment,everything()) %>% 
  #求出平均数(这边的点号代表上一步产出的数据)
  mutate(rowMean =rowMeans(.[grep("GSM", names(.))])) %>% 
  #把表达量的平均值按从大到小排序
  arrange(desc(rowMean)) %>% 
  # 留下第一个
  distinct(gene_assignment,.keep_all = T) %>% 
  #反向选择去除rowMean这一列
  select(-rowMean) %>% 
  # 列名变成行名
  column_to_rownames(var = "gene_assignment")

write.table(exprSet,"exprSet_new.txt",sep = "\t")

好啦,结束啦!
理解这个代码需要对正则表达式有一定的掌握,其次,stringr和dplyr这两个包那是super重要滴,一定要熟练掌握这两个包,相关的教程网上也有很多。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,236评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,867评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,715评论 0 340
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,899评论 1 278
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,895评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,733评论 1 283
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,085评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,722评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 43,025评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,696评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,816评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,447评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,057评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,009评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,254评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,204评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,561评论 2 343

推荐阅读更多精彩内容