批量提取某通路基因并用于下游分析

前言:实验中往往比较关注某一信号通路基因的表达变化,而通过文献检索或利用转录组测序结果筛选,往往信息不全,缺乏系统性,如何提取出重点关注的信号通路上所有基因的序列,并进行下游分析,是一个值得探讨的技术问题。

目的:提取某个通路基因(如Endocytosis)的所有序列,并对其进行miRNA靶标的预测分析。
思路:GO数据库找到Oxidative stress通路的基因,下载后进行BLAST比对,找到物种B.dorsalis对应的基因,然后提取3UTR或CDS进行miRNA靶标预测软件进行靶标预测。
流程图:

批量下载某信号通路基因.png

具体实施流程:

1.Endocytosis通路的基因下载

首先登录GO数据库,按照教程如何获取感兴趣通路相关的基因集?找到Endocytosis,此时该通路的基因数目庞大,我们选择与B.dorsalis较为近源的黑腹果蝇,共筛选到208个Endocytosis通路基因。
然后选择DL,复制页面内容保存在01_Endocytosis_Dme_Flybase_ID.txt文件,然后导入到excel中。

操作为:数据 > 自文本 > 选择文件并导入,依次按照提示单击下一步。

注意,此时的基因名称都是Flybase ID,必须转换为NCBI Refseq ID才能进行批量下载。

2. Flybase ID转化为Refseq ID

登录FlyBase数据库FlyBase,选择Tools > Query by symbols/IDs > Batch Download

Batch Download.png

图片.png

选择一些需要下载的参数,包括FlyBase基因ID、Symbol等,其中我们最关心的就是NCBI中的基因名称,在External Crossreferences and Linkouts,如下图

图片.png

选择确定后,点击右上角Get Filed Data,进入跳转界面:
图片.png

单击Download as a TSV file,文件名为:02_FlyBase_Fields_download.txt
将该文件导入到Excel中查看。

我们真正需要的NCBI Refseq ID名称在REFSEQ_POLYPEPTIDEREFSEQ TRANSCRIPT栏。值得注意,FlyBase中对应的NCBI Refseq数据库,有多个对应的蛋白和转录本,此时只需要选择第一个即可。

注意选择的参数,自有深意!


图片.png

之后,选中REFSEQ_POLYPEPTIDE列,数据 > 分列 ,即可轻松提取出NCBI对应的基因名称。

图片.png

参考去掉excel单元格里面的前面几个字符

关于实现提取Refseq ID的方法,excel有太多的实现办法,譬如:
利用Excel中的MID和FIND函数进行第一个ID的提取,公式如下:

=MID(A3,FIND("{",A3,1)+1,FIND("}",A3,1)-FIND("{",A3,1)-1)

或者LEFT\RIGHT等等函数,可以发话自己想想力去解决。

将提取后的Refseq ID另存为03_Dme_Refseq_ID.txt文件,为下一步的输入文件。

3.批量下载黑腹果蝇的Refseq ID序列

3.1 NCBI站点下载
登录NCBI Batch Entrez,输入文件选择03_Dme_Refseq_ID.txt,点击Retrieve检索

图片.png

单击跳转的链接Retrieve records for 206 UID(s)进入NCBI下载界面
图片.png

将检索出的序列进行下载,将输出文件保存为04_Dme_Refseq_sequence.fasta
图片.png

3.2 第三方软件下载
此步骤也可通过TBtools软件进行,具体操作如下:
选择Sequence Toolkit > NCBI sequence Fetch > Bulk NCBI Sequence Download (Advanced),

图片.png

两者输出的结果是完全一样的。

4. 批量BLAST

登录BLAST,粘贴上步提取的蛋白序列(Weblast单次支持长度有限)

图片.png

下载后的文件为:NWJYD3J6013-Alignment-HitTable.csv

5. 提取BLAST比对结果

因为单个比对存在较多的序列,我们只选取排名第一的,这里使用了网友编写的脚本小程序进行,该程序可以提取评分最高或identify最高的比对结果。

图片.png

将输出的结果导入Excel查看,同理,将比对Top1的Reseq_ID提取出来另存为文件05_Bdo__Refseq_Prot_ID.txt,然后同样操作执行步骤3即可获得B.dorsalis文件,命名为06_Bdo_endocytosis_Protein_sequence.fasta

其实这一流程简单理解,就是筛选过滤的过程,可以通过R语言实现,通过group_by分组queryAcc,然后对Score 或Identity进行排序,筛选Top1即可。

6. 蛋白序列比对核酸数据库,最后下载核酸序列

重复上述操作,类似循环

7.提取3TUR序列或CDS序列

参考文章 3'UTR提取软件ExUTR的安装与使用

8.进行miRNA靶标预测分析

参考本人写的系列文章。


结束语:

在本文演示案例中,我提取了Endocytosis通路基因,然后下载到了对应的氨基酸序列(果蝇),然后以果蝇的蛋白序列比对至橘小实蝇蛋白数据库,然后筛选出比对评分最高的蛋白序列。此后将橘小实蝇蛋白序列找到对应的核酸序列(暂时没有一一对应的检索表可查,所以采用了比较迂回的比对-筛选-提取流程)。
当然,如果直接下载果蝇的核酸序列比对,则很快提取出橘小实蝇的核酸序列。但是,氨基酸序列比核酸序列保守性更强,比对的准确率会更高,结果更可靠,尤其是存在某些同类基因时,以核酸序列比对往往结果并不可靠。例如,我知道的AGO1和AGO2基因,两者在比对至果蝇时,以蛋白和核酸比对的结果完全相反,所以在NCBI注释的文件也是错误的。
以上只是我所摸索出的方法,肯定存在更为简介的流程,有待未来进一步探索。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,463评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,868评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,213评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,666评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,759评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,725评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,716评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,484评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,928评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,233评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,393评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,073评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,718评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,308评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,538评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,338评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,260评论 2 352

推荐阅读更多精彩内容