前言:实验中往往比较关注某一信号通路基因的表达变化,而通过文献检索或利用转录组测序结果筛选,往往信息不全,缺乏系统性,如何提取出重点关注的信号通路上所有基因的序列,并进行下游分析,是一个值得探讨的技术问题。
目的:提取某个通路基因(如Endocytosis)的所有序列,并对其进行miRNA靶标的预测分析。
思路:GO数据库找到Oxidative stress通路的基因,下载后进行BLAST比对,找到物种B.dorsalis对应的基因,然后提取3UTR或CDS进行miRNA靶标预测软件进行靶标预测。
流程图:
具体实施流程:
1.Endocytosis通路的基因下载
首先登录GO数据库,按照教程如何获取感兴趣通路相关的基因集?找到Endocytosis,此时该通路的基因数目庞大,我们选择与B.dorsalis较为近源的黑腹果蝇,共筛选到208个Endocytosis通路基因。
然后选择DL,复制页面内容保存在01_Endocytosis_Dme_Flybase_ID.txt文件,然后导入到excel中。
操作为:数据 > 自文本 > 选择文件并导入,依次按照提示单击下一步。
注意,此时的基因名称都是Flybase ID,必须转换为NCBI Refseq ID才能进行批量下载。
2. Flybase ID转化为Refseq ID
登录FlyBase数据库FlyBase,选择Tools > Query by symbols/IDs > Batch Download
选择一些需要下载的参数,包括FlyBase基因ID、Symbol等,其中我们最关心的就是NCBI中的基因名称,在External Crossreferences and Linkouts,如下图
选择确定后,点击右上角Get Filed Data,进入跳转界面:
单击Download as a TSV file,文件名为:02_FlyBase_Fields_download.txt
将该文件导入到Excel中查看。
我们真正需要的NCBI Refseq ID名称在REFSEQ_POLYPEPTIDE和REFSEQ TRANSCRIPT栏。值得注意,FlyBase中对应的NCBI Refseq数据库,有多个对应的蛋白和转录本,此时只需要选择第一个即可。
注意选择的参数,自有深意!
之后,选中REFSEQ_POLYPEPTIDE列,数据 > 分列 ,即可轻松提取出NCBI对应的基因名称。
参考去掉excel单元格里面的前面几个字符
关于实现提取Refseq ID的方法,excel有太多的实现办法,譬如:
利用Excel中的MID和FIND函数进行第一个ID的提取,公式如下:
=MID(A3,FIND("{",A3,1)+1,FIND("}",A3,1)-FIND("{",A3,1)-1)
或者LEFT\RIGHT等等函数,可以发话自己想想力去解决。
将提取后的Refseq ID另存为03_Dme_Refseq_ID.txt文件,为下一步的输入文件。
3.批量下载黑腹果蝇的Refseq ID序列
3.1 NCBI站点下载
登录NCBI Batch Entrez,输入文件选择03_Dme_Refseq_ID.txt,点击Retrieve检索
单击跳转的链接Retrieve records for 206 UID(s)进入NCBI下载界面
将检索出的序列进行下载,将输出文件保存为04_Dme_Refseq_sequence.fasta。
3.2 第三方软件下载
此步骤也可通过TBtools软件进行,具体操作如下:
选择Sequence Toolkit > NCBI sequence Fetch > Bulk NCBI Sequence Download (Advanced),
两者输出的结果是完全一样的。
4. 批量BLAST
登录BLAST,粘贴上步提取的蛋白序列(Weblast单次支持长度有限)
下载后的文件为:NWJYD3J6013-Alignment-HitTable.csv
5. 提取BLAST比对结果
因为单个比对存在较多的序列,我们只选取排名第一的,这里使用了网友编写的脚本小程序进行,该程序可以提取评分最高或identify最高的比对结果。
将输出的结果导入Excel查看,同理,将比对Top1的Reseq_ID提取出来另存为文件05_Bdo__Refseq_Prot_ID.txt,然后同样操作执行步骤3即可获得B.dorsalis文件,命名为06_Bdo_endocytosis_Protein_sequence.fasta。
其实这一流程简单理解,就是筛选过滤的过程,可以通过R语言实现,通过group_by分组queryAcc,然后对Score 或Identity进行排序,筛选Top1即可。
6. 蛋白序列比对核酸数据库,最后下载核酸序列
重复上述操作,类似循环
7.提取3TUR序列或CDS序列
参考文章 3'UTR提取软件ExUTR的安装与使用
8.进行miRNA靶标预测分析
参考本人写的系列文章。
结束语:
在本文演示案例中,我提取了Endocytosis通路基因,然后下载到了对应的氨基酸序列(果蝇),然后以果蝇的蛋白序列比对至橘小实蝇蛋白数据库,然后筛选出比对评分最高的蛋白序列。此后将橘小实蝇蛋白序列找到对应的核酸序列(暂时没有一一对应的检索表可查,所以采用了比较迂回的比对-筛选-提取流程)。
当然,如果直接下载果蝇的核酸序列比对,则很快提取出橘小实蝇的核酸序列。但是,氨基酸序列比核酸序列保守性更强,比对的准确率会更高,结果更可靠,尤其是存在某些同类基因时,以核酸序列比对往往结果并不可靠。例如,我知道的AGO1和AGO2基因,两者在比对至果蝇时,以蛋白和核酸比对的结果完全相反,所以在NCBI注释的文件也是错误的。
以上只是我所摸索出的方法,肯定存在更为简介的流程,有待未来进一步探索。