如何批量提取基因启动子的序列并做启动子原件的可视化展示
完成批量提取基因启动子的序列并做启动子原件的可视化展示的这个目标,我们需要通过逐步完成以下的几个过程来实现。首先我们需要找到研究物种的基因组文件以及基因注释的文件。第二步:我们需要对启动子的序列进行整体的提取。第三步:我们需要对我们感兴趣基因的启动子进行批量提取。第四步:我们需要找到启动子上面的结合原件。第五步:我们对启动子原件进行可视化的展示。
第一步:我们要学会如何找到自己基因的基因组文件以及基因注释的文件,下面的讲述都是以拟南芥为主要的对象。拟南芥基因组文件以及基因注释的文件的获取主要可以从以下的三个路径中获取。方法1:拟南芥的官网数据库中来查看(https://www.arabidopsis.org/index.jsp)。进入主页之后,我们点击download下的sequences文件来进行下载,这个研究拟南芥的科研人员应该比较熟悉。方法二:这个数据库中的数据是比较全面的,本人自己喜欢这个网站整理出来的基因组信息ensembl plants(http://plants.ensembl.org/index.html),这里面有常见的拟南芥,玉米,水稻等的基因组文件,进入到主界面中我们很容易就看到了拟南芥的物种,点击后我们进入到了下图的界面,然后点击Download后面的Fasta和GFF3,然后选择对应的文件下载。方法三,就是利用我们科研人经常用到的NCBI了,在这里面下载基因组的数据就比较容易了,我这里就不在重复。
第二步,我们批量的提取拟南芥的启动子的序列,这里我们就用到TBTOLLS这里软件,这个软件在许多方面的功能都是非常强大的,大家可以取学习这个软件的其在用法,在这里我就只讲述如何提取基因的启动子文件。写了好久还是觉得陈老师写的非常完整了,我要补充的也非常少,所以我就把链接推送给大家吧,植物启动子-顺式作用元件-批量提取-预测-可视化分析 - 知乎 (zhihu.com)。