生信log13|原核基因组分析流程一:常用在线工具使用总结及评价另附一些小白Q&A(超啰嗦的笔记)

笔者有话:写这篇日志的目的在于记录原核基因组下游分析比较基础的步骤,使用这些工具的时候很想吐槽的点,以及一些些数据的解析防止之后自己忘得一干二净的时候还能知道是怎么回事。希望这篇日志能给刚接触生物信息学,需要处理微生物数据的小伙伴提供参考和尽可能地最大限度和合理使用在线注释工具提高一点效率。另外初接触生物信息学分析工具时,常对一些点有疑虑,例如为什么要用多个数据库搜索,数据结果怎么选择,小白可能还会存在一些思维误区,下面会一一阐述和回答(不一定对),有学术性错误请点出,互相学习。

⚠️ 以下分析的数据都是基于原核生物的基因组,真核我不知道。

一些思维误区及疑惑

  • 注释数据 ≠ 实锤

  • 有现象但没找到序列 ≠ 不可信

  • 实锤的证据:规范操作没有染菌,有生物学重复的化学/物理仪器/分子生物学的证据

  • 分析时为什么要多个数据库一起用:原因是为了交叉验证,每个数据库包含的信息不一定是完整的,有些数据库比较古早,现在2021年可能已经不会再更新了(COG数据库)就是一个很好的例子,有些数据库上面信息是有错误的需要查找文献或者多个数据库验证,NCBI数据库就不太准确,仅供参考用。为了能够获得尽可能全面的信息,我们一般多个数据库一起搜索,并选取他们的并集作为最终结果。

1、文件准备(提供什么文件?)

  • 0、测序公司会返回cleandata(fastq格式),拼接好的基因组(.fasta)需要用软件Prokka进行初步注释;

  • 1、一般输入的原核数据是PROKKA预测后的蛋白质序列文件后缀为 ".faa";

  • 2、Genbank/gbff数据;

  • 3、Fasta/.fna,拼接好的基因组数据;

  • 上述.faa, Genbank/gbff均来自Prokka软件注释好的数据。

建议在prokka的时候先给每条预测出来的蛋白质序列更改好名字,prokka可做到批量命名。

1.1 蛋白质序列数据

image
image

PS :每个微生物的每条蛋白质数据最好提前命名好,方便下游分子实验的设计(如引物设计的过程中需要根据蛋白质的序列返回找基因组中的序列。

另附prokka代码一行,可批量命名

prokka --prefix strain_name --addgenes --locustag strain_name --kingdom Bacteria --norrna strainname_scaffold.fasta
 # 上面更改就是通过参数 --locustag实现的

2、在线工具及常用数据库

KEGG :http://kegg.jp/

  • 原核选择BlastKOALA(里面选择是原核的选项即可,不需要纠结是到genus还是species,这两者只有能查询条数的区别
image
4.png
image

评论:KEGG数据库对相似性阈值要求很高,能在这个数据库注释到基因组很大程度上也拥有对应的功能基因,但因为阈值高所以不能找到新的蛋白。KEGG强大的点在于可以可视化代谢的通路,因此KEGG注释是个必选项。

Eggnog(EGGNOG-Mapper): http://eggnog5.embl.de/基于Diamond算法

image
image
image

使用后的评测:EggNOG数据库每个邮箱能够同时上传五个基因组的数据,一天之内有结果

3、基于HMM模型的数据库(更快,更准,更强)

HMM全称Hidden markov model,中文:隐马尔可夫模型,前面的,如果有学习人工智能可以知道前面是比较硬的算法(暴力破解),而HMM模型是基于神经网络预测的(魔法),因此有更高的灵敏度和准确性,也比较符合生物学意义。

3.1 Kofam (更快):https://www.genome.jp/tools/kofamkoala/

image
image

评价:速度非常快,一天之内可以上传10个左右的基因组(如果人不累的话可以更多)

3.2 Pfam Hmmer :http://www.ebi.ac.uk/Tools/hmmer/

image
image
image

这个只接受单条蛋白结果,还算挺快的上传数据一会儿就好了,最有惊喜(感觉自己课题有救)的数据库。就是结果不太好展示,需要自己作图统计

3.3 MEME (motif): http://meme-suite.org/doc/meme-format.html

一个预测蛋白质结构域(蛋白质的真正行使功能的活性区域)的结构域数据库,和比对工具。

输入文件 :核苷酸序列或者蛋白序列

image
image
image
image
image
image
  • 评价,一般MEME 数据库在5~10分钟之内就能拿到数据了,但如果真的不太清楚知道结构域是什么,这个结果也就仅供参考,不过图很好看(组会上面放PPT非常炫酷!😄)

3.4 antismash(次级代谢产物,抗生素之类的)

image
  • Antismash的注释结果
image

这个数据库会告诉我们,微生物到底能合成哪些次级代谢产物,但这个数据库比较小,得出的结果一般告诉我们,你的微生物似乎没有啥有价值的代谢产物,或者空白。数据库能同时运行五个数据,结果下载下来是一堆HTML的结果,所以想放在PPT上只能截图或者自己再作一些图。

3.5 Signal IP(找信号肽):http://www.cbs.dtu.dk/services/SignalP/

image
image
image

SignalIP对于搞大数据的人(大规模测基因组/宏基因组)来说没有太大的参考意义可跳过,但是需要从基因组预测到下游分子的人需要预测一下。

其他

还有更多像Dbcan,Cazyme,等等跟上面数据库的操作步骤大同小异,有兴趣或需要上官网自行探索。

4、结果解析 (怎样的序列才是可信的)

⚠️选择可信的文献参数作为参考

  • Blast/diamond e-value : < 1e-5

  • Hmmer : < 1e-20

  • length :到NCBI蛋白质数据库或者Uniprot看同源序列的平均长度

Similarity怎么看

  • 1.蛋白质序列 ( ≥ 30% 以上,密码子的简并性)

  • 2.核苷酸序列 DNA,≥ 70%以上的相似度

物种特异性序列与PCR:一个生信与生物学的完美结合的妙用(实验室前辈提供)

  1. 从网上下载NT/NR库(尽可能地收集已知功能的序列)

  2. 用自己的基因组/蛋白序列与数据库相比对

  3. 寻找比对不上数据库的序列(说明是这个生物特有的)

  4. 给第三步的序列设计引物,作为确认此物种的特异性序列

⚠️记得有个漏洞的,因为nt库并不是有全的,自然界还有很多没测基因组,所以物种特异pcr理论上是有可能会有漏洞的,选的时候尽量跨越混着编码区和非编码区去找目的片段,这样的话实际碰到漏洞的机会会少很多(作者原话)

结尾

上面的一些内容会在后一章自己构建数据库中谈谈,本文可能后续还会有补充和更新。

PS码字不易,图片贼心累为什么用markdown就不能把图片上传呢。

各位客官还请多多点赞转发😊

知乎地址:https://zhuanlan.zhihu.com/p/394118088

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,445评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 85,889评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,047评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,760评论 1 276
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,745评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,638评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,011评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,669评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,923评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,655评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,740评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,406评论 4 320
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 38,995评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,961评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,197评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,023评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,483评论 2 342

推荐阅读更多精彩内容