Kraken2 report完全分类注释

kraken2 手册:https://github.com/DerrickWood/kraken2/wiki/Manual

1 kraken2 report是这样子的

想把各分类都注释上去呢

2 python3代码

思路:
(1) 根据第四列判断domain phylum class order family genus species,将分类信息赋值给变量,不考虑含数字的分类。
(2) 根据条件将分类信息加到第六列输出即可。

(U)nclassified, (R)oot, (D)omain, (K)ingdom, (P)hylum, (C)lass, (O)rder, (F)amily, (G)enus, or (S)pecies

#!/usr/bin/env python3
import os, sys, re
ms, infile_name, outfile_name = sys.argv

with open(infile_name, 'r') as infile:
    with open(outfile_name, 'w') as o:
        Domain = ""
        for line in infile:
            line = line.strip()
            lines = re.split(r'\t', line)
            lines[5] = re.split(r'^[ ]*', lines[5])[1]
            if lines[3] == "D":
                Domain = lines[5]
                o.write("\t".join(lines))
                o.write("\n")
            elif lines[3] == "P":
                Phylum = lines[5]
                lines[5] = Domain+";"+Phylum
                o.write("\t".join(lines))
                o.write("\n")
            elif lines[3] == "C":
                Class = lines[5]
                lines[5] = Domain+";"+Phylum+";"+Class
                o.write("\t".join(lines))
                o.write("\n")
            elif lines[3] == "O":
                Order = lines[5]
                lines[5] = Domain+";"+Phylum+";"+Class+";"+Order
                o.write("\t".join(lines))
                o.write("\n")
            elif lines[3] == "F":
                Family = lines[5]
                lines[5] = Domain+";"+Phylum+";"+Class+";"+Order+";"+Family
                o.write("\t".join(lines))
                o.write("\n")
            elif lines[3] == "G":
                Genus = lines[5]
                lines[5] = Domain+";"+Phylum+";"+Class+";"+Order+";"+Family+";"+Genus
                o.write("\t".join(lines))
                o.write("\n")
            elif lines[3] == "S":
                Species = lines[5]
                lines[5] = Domain+";"+Phylum+";"+Class+";"+Order+";"+Family+";"+Genus+";"+Species
                o.write("\t".join(lines))
                o.write("\n")

上面漏掉了kingdom的信息,尤其是真菌是Kingdom在结果中完全看不到真菌。奇怪的是Kraken注释,只有部分Domain有kingdom,修改代码。后续数据处理不变。

#!/usr/bin/env python3
import os, sys, re
ms, infile_name, outfile_name = sys.argv

with open(infile_name, 'r') as infile:
    with open(outfile_name, 'w') as o:
        Domain = ""
        for line in infile:
            line = line.strip()
            lines = re.split(r'\t', line)
            lines[5] = re.split(r'^[ ]*', lines[5])[1]
            if lines[3] == "D":
                Domain = lines[5]
                o.write("\t".join(lines))
                o.write("\n")
                Kingdom = "NG"  ## Kingdom非必须,Domain必须,在这里赋空值
            elif lines[3] == "K":
                Kingdom = lines[5]
                lines[5] = Domain+";"+Kingdom
                o.write("\t".join(lines))
                o.write("\n")
            elif lines[3] == "P":
                Phylum = lines[5]
                lines[5] = Domain+";"+Kingdom+";"+Phylum
                o.write("\t".join(lines))
                o.write("\n")
            elif lines[3] == "C":
                Class = lines[5]
                lines[5] = Domain+";"+Kingdom+";"+Phylum+";"+Class
                o.write("\t".join(lines))
                o.write("\n")
            elif lines[3] == "O":
                Order = lines[5]
                lines[5] = Domain+";"+Kingdom+";"+Phylum+";"+Class+";"+Order
                o.write("\t".join(lines))
                o.write("\n")
            elif lines[3] == "F":
                Family = lines[5]
                lines[5] = Domain+";"+Kingdom+";"+Phylum+";"+Class+";"+Order+";"+Family
                o.write("\t".join(lines))
                o.write("\n")
            elif lines[3] == "G":
                Genus = lines[5]
                lines[5] = Domain+";"+Kingdom+";"+Phylum+";"+Class+";"+Order+";"+Family+";"+Genus
                o.write("\t".join(lines))
                o.write("\n")
            elif lines[3] == "S":
                Species = lines[5]
                lines[5] = Domain+";"+Kingdom+";"+Phylum+";"+Class+";"+Order+";"+Family+";"+Genus+";"+Species
                o.write("\t".join(lines))
                o.write("\n")

3 运行脚本,查看结果

任意找一个样本的kraken2结果,包含所有物种物种注释结果,即使reads count是0。行数均为31030。

conda activate python3.7
python3 ../script/kraken_anno.py sample_report.tsv kraken_anno.txt

4 抽提种水平注释

cat kraken_anno.txt | awk -F"\t" '{if($4=="S") print $6}' > kraken_anno2.txt

行数为17091,该数据库中各物种总数。
为保证处理结果与kraken2的合并结果species完全一致,还需做:

' -> 空
[] -> 空

5 统计各门中基因组数量

四大域/界:古菌,细菌,真核,病毒
kraken2数据库的基因组统计,门水平

      1 Archaea Candidatus Geothermarchaeota
      1 Archaea Candidatus Korarchaeota
      1 Archaea Candidatus Lokiarchaeota
      1 Archaea Candidatus Micrarchaeota
     57 Archaea Crenarchaeota
    230 Archaea Euryarchaeota
     24 Archaea Thaumarchaeota
     17 Bacteria        Acidobacteria
   1164 Bacteria        Actinobacteria
     17 Bacteria        Aquificae
      3 Bacteria        Armatimonadetes
    484 Bacteria        Bacteroidetes
      1 Bacteria        Balneolaeota
      1 Bacteria        Caldiserica
      1 Bacteria        Calditrichaeota
      1 Bacteria        Candidatus Bipolaricaulota
      1 Bacteria        Candidatus Cloacimonetes
      1 Bacteria        Candidatus Omnitrophica
      4 Bacteria        Candidatus Saccharibacteria
     22 Bacteria        Chlamydiae
     14 Bacteria        Chlorobi
     19 Bacteria        Chloroflexi
      1 Bacteria        Chrysiogenetes
      8 Bacteria        Coprothermobacterota
    190 Bacteria        Cyanobacteria
      5 Bacteria        Deferribacteres
     36 Bacteria        Deinococcus-Thermus
      2 Bacteria        Dictyoglomi
      3 Bacteria        Elusimicrobia
      1 Bacteria        Fibrobacteres
   1001 Bacteria        Firmicutes
     25 Bacteria        Fusobacteria
      4 Bacteria        Gemmatimonadetes
      2 Bacteria        Ignavibacteriae
      1 Bacteria        Kiritimatiellaeota
      9 Bacteria        Nitrospirae
     35 Bacteria        Planctomycetes
   3102 Bacteria        Proteobacteria
     60 Bacteria        Spirochaetes
      8 Bacteria        Synergistetes
    152 Bacteria        Tenericutes
      7 Bacteria        Thermodesulfobacteria
     32 Bacteria        Thermotogae
     16 Bacteria        Verrucomicrobia
     24 Eukaryota       Apicomplexa
     52 Eukaryota       Ascomycota
      2 Eukaryota       Bacillariophyta
      5 Eukaryota       Basidiomycota
      1 Eukaryota       Cercozoa
      4 Eukaryota       Chlorophyta
      1 Eukaryota       Chordata
      1 Eukaryota       Ciliophora
      7 Eukaryota       Euglenozoa
      2 Eukaryota       Evosea
      4 Eukaryota       Microsporidia
      4 Eukaryota       Rhodophyta
     69 Eukaryota       Streptophyta
    729 Viruses Artverviricota
    410 Viruses Cossaviricota
    903 Viruses Cressdnaviricota
      7 Viruses Dividoviricota
    222 Viruses Duplornaviricota
     46 Viruses Hofneiviricota
    789 Viruses Kitrinoviricota
   1153 Viruses Lenarviricota
    645 Viruses Negarnaviricota
    127 Viruses Nucleocytoviricota
    111 Viruses Peploviricota
     61 Viruses Phixviricota
    894 Viruses Pisuviricota
     94 Viruses Preplasmiviricota
    417 Viruses Saleviricota
   3542 Viruses Uroviricota
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,384评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,845评论 3 391
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,148评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,640评论 1 290
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,731评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,712评论 1 294
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,703评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,473评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,915评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,227评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,384评论 1 345
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,063评论 5 340
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,706评论 3 324
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,302评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,531评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,321评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,248评论 2 352

推荐阅读更多精彩内容