生信必备技能 -- 不可描述

在做 Small RNA 分析的过程中时遇到了一个有意思的事情,前期比对到不同的数据库后需要将不同的短 tags 注释到不同的类别上,这个地方有点意思的事情是同一条 tags 可能被注释到不同的类别上,这里就需要对不同的类别进行优先级排序了。
一般按照惯例我们会根据 已知 miRNA -> rRNA -> tRNA -> ncRNA (snRNA, snoRNA) 的顺序进行优先级注释。

在写程序的时候基本上有以下的思路:
首先我获得了每个数据库的比对结果,知道了哪些 tags 比对到了相应的数据库中,使用最基本的思路是从 总的 tags 中先剔除比对到相应物种的成熟 miRNA,然后剔除比对到物种相应的总的 hairpin ( miRNA 前体数据库),然后剔除比对到 GeneBank 数据库中的 rRNA 以及 tRNA , 如果有 snRNA 或者 snoRNA 等 tags 的话依次提取出来。

思路很简单,但是真正动手写脚本的时候才发现,这个过程苏是多么的冗余。因为,这样思路下我们如果要比对7个数据库的话,最少就应该用同样的脚本过滤六次。好麻烦,还好我比较喜欢偷懒,写脚本的时候应用了另一种思路:
直接处理所有的 tags 然后对不同的数据库比对结果信息分别建立一个文件,通过不同的文件标签进行 tags 分类标记,这样就省事多了:
附上源代码:( 遵循 GLP v3 开源协议 )

#!/usr/bin/perl -w
use strict;

die "Usage: perl $0 <list> <prefix> <indir> \n" if @ARGV < 3;

my $info_dir = $ARGV[2];
my $sample = $ARGV[1];

my ( %list, %out );

# deal with all tags
open IN,$ARGV[0] or die $!;
while (<IN>){
    chomp;
    next if /^#/;
    my ($id, $cnt) = split /\t/,$_;
    $list{$id}{"count"} = $cnt;
}
close IN;

# indir must contain files like: $sample.m2mature.info 
# t0023555        xxx_tRNA_AM087200_6:80:-        1       20      +
# t0031916        xxx_tRNA_AM087200_6:80:-        1       21      +

opendir DIR, $info_dir or die $!;
foreach my $file (sort grep(/$sample\.\S+\.info$/,readdir(DIR))){
    (my $type) = $file =~ /$sample\.(\S+)\.info/;
    if ($type eq "m2ncgb"){
        open IN,$file or die $!;
        while (<IN>)  {
            chomp;
            next if /^#/;
            next if /^$/;
            my @b = split /\t/,$_;
            my @c = split /_/,$b[1];
            push @{$out{$b[0]}},$c[1];
        }
        close IN;
    } else {
        open IN,$file or die $!;
        while (<IN>)  {
            chomp;
            next if /^#/;
            next if /^$/;
            my @b = split /\t/,$_;
            push @{$out{$b[0]}},$type;
        }
        close IN;
    }
}
close DIR;

foreach my $k (sort keys %list){
    if (exists $out{$k}){
        my $t = @{$out{$k}}==1 ? $out{$k}->[0] :join ",",@{$out{$k}};
        print "$k\t$t\n";
    }else {
        print "$k\t-\n";
    }
}

附上大牛的代码:行使同样的功能,代码量只有我的一半!

#! /usr/bin/perl -w
use strict;
die "perl $0  input.txt prefix  dir\n"  unless @ARGV == 3;

chomp(my @file = glob "$ARGV[2]/$ARGV[1].*info");
my %ha;
foreach(@file){
   my $flag = (split/\./,$_)[-2];
   ding($_,\%ha,$flag);
}
open IN,$ARGV[0]||die;
while(<IN>){
    chomp;
    my $id = (split/\t/,$_)[0];
    $ha{$id} ||= "NA,";
    chop $ha{$id};
    print "$id\t$ha{$id}\n";
}
close IN;

############################################
sub ding{
    my ($p,$q,$f) = @_;
    open IN,$p||die;
    while(<IN>){
        chomp;
        next if /^#|^$/;
        my $a = (split/\t/,$_)[0];
        $q->{$a} .="$f,";
    }
}

perl 真是一门强大的脚本们语言。同样的功能有多种多样的方法可以将它演绎出来!

** 这里值得重点划线的地方是 这一句代码:**

my $t = @{$out{$k}}==1 ? $out{$k}->[0] :join ",",@{$out{$k}};

这里使用了 ?:的判断方式,问号前面代表判断的条件,问号后面冒号前面代表条件判断如果为真则执行,否则就执行冒号后面的语句。

欢迎大家留言讨论!

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 212,332评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,508评论 3 385
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 157,812评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,607评论 1 284
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,728评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 49,919评论 1 290
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,071评论 3 410
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,802评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,256评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,576评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,712评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,389评论 4 332
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,032评论 3 316
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,798评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,026评论 1 266
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,473评论 2 360
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,606评论 2 350

推荐阅读更多精彩内容

  • Android 自定义View的各种姿势1 Activity的显示之ViewRootImpl详解 Activity...
    passiontim阅读 171,834评论 25 707
  • Spring Cloud为开发人员提供了快速构建分布式系统中一些常见模式的工具(例如配置管理,服务发现,断路器,智...
    卡卡罗2017阅读 134,637评论 18 139
  • 发现 关注 消息 iOS 第三方库、插件、知名博客总结 作者大灰狼的小绵羊哥哥关注 2017.06.26 09:4...
    肇东周阅读 12,066评论 4 62
  • 大哥知道我在那里 一棵榕树在风里 溪流显小 屋舍显阔 夜渐渐静落 我依然有一片天堂放置 一颗热爱沉睡的心脏 窗外漂...
    泛指烨阅读 253评论 1 2
  • 我原本的心 在来时,我整了整衣襟 如果我从此步入世间 是不是我再也没有初始的素洁 风答我,一切都...
    陈汐年阅读 2,721评论 11 21