htslib 的使用( C++ 处理BAM文件)

背景

在处理NGS 数据时,尤其是突变的检测。我们需要对bam 文件进行读写。 目前有相对方便的库 pysam 和 htsjdk ,这两个库提供的api 可以方便python 和java 读写,操作BAM。

随着测序深度的提高,尤其是UMI技术的普及,上万层的测序数据下,我们需要提高分析软件的效率,C++是比较好的选择。

C++ 中可以读写BAM 的库有 htslib 、bamtools、Seqan3 等。Seqan3的文档信息比较全,但是我使用文档中的测试案例发现,速度很慢(也许是我打开方式有问题?);bamtools 和 htslib 的效率挺好的,但是都缺乏详细的文档,用起来真的头大。

本文,粗略的学习了htslib sam.h sam.c 部分的代码,以及参考了陈师傅的gencore 代码,总结了一些htslib的使用方法。(pileup 部分好难,略过~)

C++ 代码

  • 获得Cigar

    /*
    @discussion In the CIGAR array, each element is a 32-bit integer. The
     lower 4 bits gives a CIGAR operation and the higher 28 bits keep the
     length of a CIGAR.
    */
    
    string getCigar(const bam1_t *b) {
        uint32_t *data = (uint32_t *)bam_get_cigar(b);
        int cigarNum = b->core.n_cigar;
        stringstream ss;
        for(int i=0; i<cigarNum; i++) {
            uint32_t val = data[i];
            char op = bam_cigar_opchr(val);
            uint32_t len = bam_cigar_oplen(val);
            ss << len << op;
        }
        return ss.str();
    }
    
  • 获得序列和质量值

    //Each base is encoded in 4 bits: 1 for A, 2 for C, 4 for G, 8 for T and 15 for N.
    char fourbits2base(uint8_t val) {
        switch(val) {
            case 1:
                return 'A';
            case 2:
                return 'C';
            case 4:
                return 'G';
            case 8:
                return 'T';
            case 15:
                return 'N';
            default:
                cerr << "ERROR: Wrong base with value "<< (int)val << endl ;
                return 'N';
        }
    }
    
    // get seq 序列的信息记录在8bit 的数据结构中,前4bit 是前面的碱基,后4bit 是后面的碱基
    string getSeq(const bam1_t *b) {
        uint8_t *data = bam_get_seq(b);
        int len = b->core.l_qseq;
        string s(len, '\0');
        for(int i=0; i<len; i++) {
            char base;
            if(i%2 == 1)
                base = fourbits2base(data[i/2] & 0xF); 
            else
                base = fourbits2base((data[i/2]>>4) & 0xF);
            s[i] = base;
        }
        return s;
    }
    
    // get seq quality
    string getQual(const bam1_t *b) {
        uint8_t *data = bam_get_qual(b);
        int len = b->core.l_qseq;
        string s(len, '\0');
        for(int i=0; i<len; i++) {
            s[i] = (char)(data[i] + 33); // 转换成打印的ascci
        }
        return s;
    }
    
  • 读取完整BAM

    int main(int argc,char *argv[])
    {
        if(argc < 2) {
            cerr << "need bam path";
            return -1;
        }
        samFile *bam_in = sam_open(argv[1],"r"); // open bam file
        bam_hdr_t *bam_header = sam_hdr_read(bam_in); // read header
        bam1_t *aln = NULL;
        aln = bam_init1(); //initialize an alignment
        
    //return >= 0 on successfully reading a new record, -1 on end of stream, < -1 on error
        while (sam_read1(bam_in,bam_header,aln) >= 0) 
        {
            int pos = aln->core.pos ;
            string chr = "*";
            if (aln->core.tid != -1) // 存在无法比对到基因组的reads
                chr = bam_header->target_name[aln->core.tid]; // config name(chromosome)            
            string queryname = bam_get_qname(aln);
            string cigar = getCigar(aln);
            string seq = getSeq(aln);
            string qual = getQual(aln);
    
            cout << "QueryName: " << queryname << '\n' 
                << "Positon: " << chr << '\t' <<  pos <<'\n'
                << "Cigar: " << cigar << '\n'
                << "Seq: " << seq << '\n'
                << "Qual: " << qual << '\n';
            
        }
    
        bam_destroy1(aln); // 回收资源
        bam_hdr_destroy(bam_header);
        sam_close(bam_in);
        cout << "Finshed!\n";
        return 0;
    }
    
  • 读取选定区域的BAM

    int main(int argc,char *argv[])
    {
        if(argc < 3) {
            cerr << "need bam path; chrom: start pos-end pos";
            return -1;
        }
        samFile *bam_in = sam_open(argv[1],"r"); // open bam file
        hts_idx_t *bam_index = sam_index_load(bam_in,argv[1]); //load index 
        bam_hdr_t *bam_header = sam_hdr_read(bam_in); // read header
        bam1_t *aln = NULL;
        aln = bam_init1(); //initialize an alignment
    /*
    Regions are parsed by hts_parse_reg(), and take one of the following forms:
    region          | Outputs
    --------------- | -------------
    REF             | All reads with RNAME REF
    REF:            | All reads with RNAME REF
    REF:START       | Reads with RNAME REF overlapping START to end of REF
    REF:-END        | Reads with RNAME REF overlapping start of REF to END
    REF:START-END   | Reads with RNAME REF overlapping START to END
    .               | All reads from the start of the file
    *               | Unmapped reads at the end of the file (RNAME '*' in SAM)
    */
            string regin = argv[2]; 
           
        hts_itr_t *iter = sam_itr_querys(bam_index,bam_header,regin);
        if(!iter) cerr << "invalid regin\n";
       // while (sam_read1(bam_in,bam_header,aln) >= 0)
        while (sam_itr_next(bam_in, iter, aln) >= 0)
        {
            int pos = aln->core.pos ;
            string chr = "*";
            if (aln->core.tid != -1)
                chr = bam_header->target_name[aln->core.tid]; // config name(chromosome)            
            string queryname = bam_get_qname(aln);
            string cigar = getCigar(aln);
            string seq = getSeq(aln);
            string qual = getQual(aln);
            string md = getAux(aln,"MD");
    
            //int64_t newPos = pos - 5;
            cout << "QueryName: " << queryname << '\n' 
                << "Positon: " <<aln->core.tid << '\t' << chr << '\t' <<  pos <<'\n'
                << "Cigar: " << cigar << '\n'
                << md << '\n'
                << "Seq: " << seq << '\n'
                << "Qual: " << qual << '\n';
            
        }
        sam_itr_destroy(iter) ;// free iter
        bam_destroy1(aln);
        bam_hdr_destroy(bam_header);
        sam_close(bam_in);
        cout << "Finshed!\n";
        return 0;
    }
    
    
  • 辅助字段的读取

    string getAux(const bam1_t *b,const char tag[2])
    {
        kstring_t res = KS_INITIALIZE;    // 需要初始化
        if(bam_aux_get_str(b,tag,&res) == 1) //kstring的string buffer 没有\0终止
        {
            int len = ks_len(&res);
            char *ks_s = ks_str(&res);
            string s(len, '\0');
            for (int i = 0;i<len;i++ ){
                s[i] = ks_s[i];
            }
            ks_free(&res); // 释放资源
            return s;
        }    
        else 
        {
            cerr << "no tag :" << tag << '\n';
            ks_free(&res);
            return "";
        }
        
    }
    
    int main()
    {
    。。。
        string md = getAux(aln,"MD");
    。。。
    }
    
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容