简洁 | 优雅地整理 BLAST 比对结果

写在前面

用过 BLAST 进行基因功能注释的朋友应该常常遇到两个问题:

  1. BLAST 输出格式较多,选择哪一类输出格式更为实用?
  2. 输出结果信息较多,如果方便下游数据分析?

BLAST 的输出文件格式建议

基于我个人生信数据分析项目经验,一般用户会选择以下四种格式:

  1. pairwise
  2. blast tab ,即 -outfmt 6
  3. ASN
  4. XML

以下逐个解读。

Pairwise 格式

这一个是常见于绝大多数网站自行搭建的 BLAST 服务。比如拟南芥 TAIR 的 Blast 输出,大体如下,



清晰明了,对于少量序列,比如 一两个序列的 比对结果查看,那么这一格式非常合适。但一旦数据较多,比如我们上千个差异表达基因或者是关联出来的基因列表,那么就不太合适。于是一般会用 Table (--outfmt 6 或 7 )

Blast Tab 格式

Blast Tab 格式,这个名字,是我自己给的。因为这个格式其实就是纯粹的 制表符分隔 的 表格。一般情况下,blast+ 设置输出格式为 -outfmt 6 或者 7 (后者包含表头)即可。大体格式可以看看下方,



直接在 Excel 中查看即可。可以看出,一列一列摆放,以 HSP (也就是 高度相似片片段)为单位。这个序列的比对结果不太直观(具体见下文)。

ASN 格式

说实话,我估计绝大部分号称自己搞数据分析的,其实也不知道有这个格式。



ASN格式,类似 JSON,是 NCBI 自定义的格式,存储信息最全面,可以直接使用 Blast 软件转换为其他格式。唯一麻烦的可能是,用户需要转换一次,有些人不喜欢。当然我也不喜欢,毕竟...XML相对容易解析。

XML 格式

一直以来,我最新换的就是 XML 格式。主要原因有:

  1. 相比于 Pairwise 和 ASN 格式来说,XML 更容易使用 程序解析
  2. 相比于 Table 格式来说,XML 信息更全面

具体可看


对应所有 TBtools 用户来说,我个人是建议,如果只是一两条序列的 BLAST ,那么建议 Pairwise 格式,而其他所有情况,直接输出 XML 格式。因为 TBtools 下面有系列功能可以可视化解析

大体功能介绍

XML 转换为 BLAST Tab 格式

所有 BLAST XML 输出文件,可以直接使用 TBtools,转换为 BLAST Tab。非常方便。



TBtools Table 格式

正如前面体积,BLAST 默认的输出以 HSP 为单位,有时候并不太合适。比如,有些时候比对结果是这样的(即超过 1 个 HSP)



这种情况下,如果是 NCBI BLAST 默认的 表格输出,那么就是



我们完全可以想想,有不少时候,可能有 N 个hsp。而这些信息,本身冗余。此外,也无法直接看到比对覆盖率。为此.... 很久很久以前,我就开放了一个功能,自定义了一个 TBtools Table。具体如下,


可以看出,多个 HSP 的信息被整合为一行,也补充了覆盖率的计算等等。每行就是一个 Hit ,更符合实际用户观测数据需求。

仅仅如此?

当然不是。这两天,我又在折腾一些生物学问题相关的课题。于是需要看一堆基因大体注释信息。尽管上述说到的 TBtoosl Table 相对简洁。但还是不够直观,毕竟一个人序列还是对应了多个 hits。所以最好的做法就是,进一步把所有的 hits 整合成 一行(这个想法在三四年前,夏老师提过,不过...我一直懒得实现)。索性写了一下,输出结果如下。



说实话,不能太完美...
而且具体使用一样简单:

  1. 输入BLAST的XML格式输出文件,支持 DIAMOND XML,建议比对到 Swissprot
  2. 输出文件路径

具体界面如下,注意到新版本的 TBtools,直接整合了 三个表格转换功能




一切,就这么简单....
当然,其实新版本修复了一小部分 BLAST XML to Table 的小bug,建议各位更新,尽管,我已经推送了自动更新.....

写在后面

TBtools 的序列提取 和 BLAST 相关功能,是最老的功能,意味着他们的具体界面化和实现逻辑,都是一个具有不到半年 Java 编程经验(接触编程刚过一年)的小孩子写的。现在看来,多少显得粗糙。但回过头来,这个跟不少大佬说的一样:

  • 以前,有时间,但是没经费
  • 现在,有经费,但是没时间

而大佬终归是大佬嘛。对于我,那么情况是:没时间,也没经费。
哈哈哈哈哈哈哈哈

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 204,530评论 6 478
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 86,403评论 2 381
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 151,120评论 0 337
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 54,770评论 1 277
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 63,758评论 5 367
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 48,649评论 1 281
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 38,021评论 3 398
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 36,675评论 0 258
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 40,931评论 1 299
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 35,659评论 2 321
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 37,751评论 1 330
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 33,410评论 4 321
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 39,004评论 3 307
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 29,969评论 0 19
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 31,203评论 1 260
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 45,042评论 2 350
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 42,493评论 2 343

推荐阅读更多精彩内容