笔者有话:写这篇日志的目的在于记录原核基因组下游分析比较基础的步骤,使用这些工具的时候很想吐槽的点,以及一些些数据的解析防止之后自己忘得一干二净的时候还能知道是怎么回事。希望这篇日志能给刚接触生物信息学,需要处理微生物数据的小伙伴提供参考和尽可能地最大限度和合理使用在线注释工具提高一点效率。另外初接触生物信息学分析工具时,常对一些点有疑虑,例如为什么要用多个数据库搜索,数据结果怎么选择,小白可能还会存在一些思维误区,下面会一一阐述和回答(不一定对),有学术性错误请点出,互相学习。
⚠️ 以下分析的数据都是基于原核生物的基因组,真核我不知道。
一些思维误区及疑惑
注释数据 ≠ 实锤
有现象但没找到序列 ≠ 不可信
实锤的证据:规范操作没有染菌,有生物学重复的化学/物理仪器/分子生物学的证据
分析时为什么要多个数据库一起用:原因是为了交叉验证,每个数据库包含的信息不一定是完整的,有些数据库比较古早,现在2021年可能已经不会再更新了(COG数据库)就是一个很好的例子,有些数据库上面信息是有错误的需要查找文献或者多个数据库验证,NCBI数据库就不太准确,仅供参考用。为了能够获得尽可能全面的信息,我们一般多个数据库一起搜索,并选取他们的并集作为最终结果。
1、文件准备(提供什么文件?)
0、测序公司会返回cleandata(fastq格式),拼接好的基因组(.fasta)需要用软件Prokka进行初步注释;
1、一般输入的原核数据是PROKKA预测后的蛋白质序列文件后缀为 ".faa";
2、Genbank/gbff数据;
3、Fasta/.fna,拼接好的基因组数据;
上述.faa, Genbank/gbff均来自Prokka软件注释好的数据。
建议在prokka的时候先给每条预测出来的蛋白质序列更改好名字,prokka可做到批量命名。
1.1 蛋白质序列数据
PS :每个微生物的每条蛋白质数据最好提前命名好,方便下游分子实验的设计(如引物设计的过程中需要根据蛋白质的序列返回找基因组中的序列。
另附prokka代码一行,可批量命名
prokka --prefix strain_name --addgenes --locustag strain_name --kingdom Bacteria --norrna strainname_scaffold.fasta
# 上面更改就是通过参数 --locustag实现的
2、在线工具及常用数据库
KEGG :http://kegg.jp/
- 原核选择BlastKOALA(里面选择是原核的选项即可,不需要纠结是到genus还是species,这两者只有能查询条数的区别
评论:KEGG数据库对相似性阈值要求很高,能在这个数据库注释到基因组很大程度上也拥有对应的功能基因,但因为阈值高所以不能找到新的蛋白。KEGG强大的点在于可以可视化代谢的通路,因此KEGG注释是个必选项。
Eggnog(EGGNOG-Mapper): http://eggnog5.embl.de/基于Diamond算法
使用后的评测:EggNOG数据库每个邮箱能够同时上传五个基因组的数据,一天之内有结果
3、基于HMM模型的数据库(更快,更准,更强)
HMM全称Hidden markov model,中文:隐马尔可夫模型,前面的,如果有学习人工智能可以知道前面是比较硬的算法(暴力破解),而HMM模型是基于神经网络预测的(魔法),因此有更高的灵敏度和准确性,也比较符合生物学意义。
3.1 Kofam (更快):https://www.genome.jp/tools/kofamkoala/
评价:速度非常快,一天之内可以上传10个左右的基因组(如果人不累的话可以更多)
3.2 Pfam Hmmer :http://www.ebi.ac.uk/Tools/hmmer/
这个只接受单条蛋白结果,还算挺快的上传数据一会儿就好了,最有惊喜(感觉自己课题有救)的数据库。就是结果不太好展示,需要自己作图统计
- PS:附批量(多条蛋白序列)搜索的页面 pfam batch search
3.3 MEME (motif): http://meme-suite.org/doc/meme-format.html
一个预测蛋白质结构域(蛋白质的真正行使功能的活性区域)的结构域数据库,和比对工具。
输入文件 :核苷酸序列或者蛋白序列
- 评价,一般MEME 数据库在5~10分钟之内就能拿到数据了,但如果真的不太清楚知道结构域是什么,这个结果也就仅供参考,不过图很好看(组会上面放PPT非常炫酷!😄)
3.4 antismash(次级代谢产物,抗生素之类的)
- Antismash的注释结果
这个数据库会告诉我们,微生物到底能合成哪些次级代谢产物,但这个数据库比较小,得出的结果一般告诉我们,你的微生物似乎没有啥有价值的代谢产物,或者空白。数据库能同时运行五个数据,结果下载下来是一堆HTML的结果,所以想放在PPT上只能截图或者自己再作一些图。
3.5 Signal IP(找信号肽):http://www.cbs.dtu.dk/services/SignalP/
SignalIP对于搞大数据的人(大规模测基因组/宏基因组)来说没有太大的参考意义可跳过,但是需要从基因组预测到下游分子的人需要预测一下。
其他
还有更多像Dbcan,Cazyme,等等跟上面数据库的操作步骤大同小异,有兴趣或需要上官网自行探索。
4、结果解析 (怎样的序列才是可信的)
⚠️选择可信的文献参数作为参考
Blast/diamond e-value : < 1e-5
Hmmer : < 1e-20
length :到NCBI蛋白质数据库或者Uniprot看同源序列的平均长度
Similarity怎么看
1.蛋白质序列 ( ≥ 30% 以上,密码子的简并性)
2.核苷酸序列 DNA,≥ 70%以上的相似度
物种特异性序列与PCR:一个生信与生物学的完美结合的妙用(实验室前辈提供)
从网上下载NT/NR库(尽可能地收集已知功能的序列)
用自己的基因组/蛋白序列与数据库相比对
寻找比对不上数据库的序列(说明是这个生物特有的)
给第三步的序列设计引物,作为确认此物种的特异性序列
⚠️记得有个漏洞的,因为nt库并不是有全的,自然界还有很多没测基因组,所以物种特异pcr理论上是有可能会有漏洞的,选的时候尽量跨越混着编码区和非编码区去找目的片段,这样的话实际碰到漏洞的机会会少很多(作者原话)
结尾
上面的一些内容会在后一章自己构建数据库中谈谈,本文可能后续还会有补充和更新。
PS码字不易,图片贼心累为什么用markdown就不能把图片上传呢。
各位客官还请多多点赞转发😊