GEO芯片分析的倒数第2个关卡-果子学生信

GEO芯片分析的倒数第2个关卡被没有了。。

原创 果子 [果子学生信](javascript:void(0);)

芯片分析里面有一个比较困难的地方就是探针的注释,其实我们之前的帖子已经把各种不同的情况解决的差不多该了。
除了使用R包注释,没有R包,我们可以自己从平台文件中获取探针和基因的对应关系。
来完成你的生信作业,这是最有诚意的GEO数据库教程
skr!GEO芯片数据的探针ID转换
有些GEO平台的探针转换比较麻烦
正则表达式是我们认识世界的哲学
还有一种情况比较特殊,我们也解决了
GEO芯片中的NM_,NR_开头的识别号如何转换成基因名称?

其实看完了以上的帖子,90%的GEO表达谱芯片的探针ID转换都没有问题,剩下的就是平台中只有序列没有其他可用信息的芯片了,这种芯片常常是非编码芯片,比如GPL21827芯片

image.gif

他的平台信息是这样的,只有一段序列,没有其他可用的信息。


image.gif

这时候就需要把这个序列比对一下,才行,blast人人都会用,只要把这个序列复制一个,去NCBI比对一下就行了。不过一个个操作肯定不行,下载NCBI-blast批量操作也很慢。
在唐医生的帮助下,我们使用seqmap这个软件解决了问题。

1.转录本信息文件下载

比对这个是事情,如果暂时理解不了,就用NCBI的blast去理解,后面到了高通量测序的时候也会讲。比对是要比对到基因组上去或者比对到已知的转录本上去,所以我们还缺个记录所有转录本信息的文件。这个文件保存在genecode数据库中。

image.gif

点进去之后是这个样子的


image.gif

再点进去是这样的,我们这个芯片是人的,所以选择人


image.gif

点进去,选择最新的版本,30


image.gif

选择转录本信息下载


image.gif

2.GEO平台文件下载

浏览器输入平台名称

image.gif

找到平台信息下载


image.gif

点击进去下载到本地


image.gif

因为这个文件有点大,自己下载有可能出现断断续续,或者下载不完全的情况,请下载完之后,检查文件大小。

3.比对软件下载

浏览器输入seqmap

image.gif

点进去拉到最后,选择自己电脑对应的版本


image.gif

4.处理平台文件变成fasta

这时候用Rstudio新建一个project,再把下载的三个文件放在project文件夹中,解压成三个文件。大概是这样的。

image.gif

在检索seqmap的时候,第二个条目是其用法


image.gif

点开阅读后,发现seqmap的用法比较简单,输入fasta格式的文件,输入要比对的参考基因组,再输入输出文件的文字,最后加上一个自定义选项即可。
其中,最困难的地方是fasta文件获取,这个只能从平台文件来转换。

gpl <- data.table::fread("GPL21827_family.soft",skip = "ID",data.table = F)

fread的skip参数可以跳过数字,也可以跳过字符。如果觉得不够优雅,可以用下面的方法

library(GEOquery)gpl <- Table(getGEO(filename = "GPL21827_family.soft"))

缺点就是慢,尤其在当前数据下,这个方法很慢。
此时数据是这样的:

image.gif

现在就选择两列,一列是探针名称,一列是序列

## 选取想要的两列,一列是ID, 一列是序列gpl <- gpl[,c(1,4)]

过滤掉没有序列的行

library(dplyr)gpl <- gpl %>%   filter(nchar(SEQUENCE)!=0)  

保存为fasta格式文件,十分巧妙!

gp <- paste0('>',gpl$ID,'\n', gpl$SEQUENCE)
image.gif

写成文本文件的时候就可以看出fasta的格式了

write.table(gp,'GPL.fasta', quote = F, row.names = F, col.names = F)

打开后数据是这个样子的

image.gif

此时,我们要的三个文件都齐了


image.gif

5.批量比对

这个可以在终端里面完成,建议安装git for windows,更加方便

image.gif

在刚才那个文件夹下,右击选择git bash

image.gif

在里面输入以下命令

./seqmap-1.0.12-windows.exe 0 ./GPL.fasta ./gencode.v30.transcripts.fa seqmap_results.txt //output_all_matches

这个命令由6部分组成

  • ./seqmap-1.0.12-windows.exe是软件名称,

  • 0表示匹配容错率为0

  • ./GPL.fasta是平台fasta文件

  • ./gencode.v30.transcripts.fa是参考基因组

  • seqmap_results.txt是生成文件的名字

  • //output_all_matchest输出所有匹配结果,其他系统一个斜杠即可。

运行后是这个样子的:

image.gif

1分钟不到就完成了。

6.提取比对结果

## 读入数据probe2ID <- data.table::fread("seqmap_results.txt",data.table = F)## 重要的结果在第一列library(tidyr)library(dplyr)probe2ID <- probe2ID %>%  select(probe_id,trans_id) %>%   separate(trans_id,into = c("Ensembl",                             "drop1","drop2","drop3",                             "trans_Symble","gene_Symble","drop4","trans_biotype"),sep = "\\|") %>%   select(probe_id,Ensembl,trans_Symble,gene_Symble,trans_biotype)

结果是这个样子的。

image.gif

大功告成!!

重点在这!!

这个技能用的地方不多,我把常见的非编码芯片平台信息已经注释好了,

image.gif

文件储存为Rdata格式,使用的时候直接load即可。

load(file = "GPL21827_probe_ID.Rdata")

微信联系我获取。
我的微信是guotosky, 加的时候注明一下原因,简单自我介绍一下即可。
除此之外,如果还有其他平台信息不在那5个之内的,也欢迎留言,我可以尝试去解决。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 219,366评论 6 508
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 93,521评论 3 395
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 165,689评论 0 356
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,925评论 1 295
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,942评论 6 392
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,727评论 1 305
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 40,447评论 3 420
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 39,349评论 0 276
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,820评论 1 317
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,990评论 3 337
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 40,127评论 1 351
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,812评论 5 346
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 41,471评论 3 331
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 32,017评论 0 22
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 33,142评论 1 272
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 48,388评论 3 373
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 45,066评论 2 355

推荐阅读更多精彩内容