芯片探针序列基因注释—跟着Jimmy学生信笔记

内容不是教程,均为个人学习笔记,以备后日查询
学习资源均来自生信技能树论坛生信技能树B站视频,微信公众号:生信技能树


为啥是我最不想用的方法?


以上两种方法都可以轻易的获取平台探针对应的gene_symbol。
但最悲伤的是,费劲儿学了R语言和一些生信分析技能能后,发现自己想分析的芯片对应的平台通过以上方法都无法获得探针信息,比如我要做的:GPL5175。连里面的基因是啥都不知道,就别分析了=。=!
只好跟着生信技能树的教程自己下载探针序列进行比对,电脑不行,相当费时。

  • 16G内存的电脑跑下面的流程真的让我等的花儿都谢了。
  • 有时间赶紧给linux学了,瘸腿跑的感觉很Der。

1.下载分析过程中需要用的文件

  • 探针对应的序列
     一般用getGEO()函数下载对应的平台文件就能获取探针与序列的对应数据。可惜,通过GEO数据库下载GPL5175中没有探针序列,只好去芯片的官网下载了,地址一般在GEO数据库中可见,如下:


  • 参考基因组fa文件
     一定要下Homo_sapiens.GRCh38.dna.primary_assembly.fa.gz里面有个primary,别看错了。
  • 基因注释GTF文件
    两个都下载好:

2.将下载的好的探针序列整理成需要的格式,怎么整理就是R语言操作的事儿。格式如下

3.人参考基因组构建索引并且比对

library(Rsubread)
dir='D:/Chrom download'' #这里就是Homo_sapiens.GRCh38.dna.chromosome.1.fa文件的所在路径
ref <- file.path(dir,'Homo_sapiens.GRCh38.dna.chromosome.1.fa')
buildindex(basename="reference_index",reference=ref)
reads <- temp
align(index="reference_index",readfile1=reads,
      output_file="alignResults.BAM",phredOffset=64) 
propmapped("alignResults.BAM")

无尽的等待,16G内存的忧伤=。=!

4.将基因组注释文件载入R

library(Rsubread)
dir='D:/Chrom download' #这里就是Homo_sapiens.GRCh38.99.gtf文件的所在路径
gtf <- file.path(dir,'Homo_sapiens.GRCh38.99.gtf')
library(refGenome)
ens <- ensemblGenome()
read.gtf(ens,useBasedir = F,gtf)
extractSeqids(ens, 'MT')
tableFeatures(ens)
my_gene <- getGenePositions(ens)
gt<-my_gene
my_gene_length <- gt$end - gt$start
my_density <- density(my_gene_length)
library(GenomicRanges)
my_gr <- with(my_gene, GRanges(seqid, IRanges(start, end), 
                               strand, id = gene_id))

这里有一点需要注意,refGenome这个R包已经从CRAN repository移除了,通过install()函数是无法安装的,需要手动下载压缩包然后安装。

5.坐标映射

library(Rsamtools)
bamFile="alignResults.BAM"
quickBamFlagSummary(bamFile)
bam <- scanBam(bamFile)
tmp=as.data.frame(do.call(cbind,lapply(bam[[1]], as.character)))
tmp=tmp[tmp$flag!=4,] 
library(GenomicRanges)
my_seq <- with(tmp, GRanges(as.character(rname), 
                                 IRanges(as.numeric(pos)-60, as.numeric(pos)+60), 
                                 as.character(strand), 
                                 id = as.character(qname)))
gr3 = intersect(my_seq,my_gr)
o = findOverlaps(my_seq,my_gr)
lo=cbind(as.data.frame(my_seq[queryHits(o)]),
         as.data.frame(my_gr[subjectHits(o)]))
write.table(lo,file = 'GPL5175_probe2ensemb.csv',row.names = F,sep = ',')#保存结果

再使用R读进来

GPL5175_probe2ensemb<-read.csv('GPL5175_probe2ensemb.csv',header = T)

结果如下


表格的第6列与第12列即为探针ID与基因的ensembID,提取这两列后将表达矩阵中的探针ID替换为ensembID,再通过org.Hs.eg.db包转换为gene_symbol即可。

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 205,132评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 87,802评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,566评论 0 338
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,858评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,867评论 5 368
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,695评论 1 282
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,064评论 3 399
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,705评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 42,915评论 1 300
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,677评论 2 323
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,796评论 1 333
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,432评论 4 322
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,041评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,992评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,223评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,185评论 2 352
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,535评论 2 343

推荐阅读更多精彩内容