从参考基因组快速读取指定序列

介绍

faidx 是FASTA 和 FASTQ 文件的随机读取索引。

描述

fai index 一般以文件名增加.fai 后缀,作为文件的名称。

fasta 文件 fai index 有5列,fastq 文件会多一列质量信息。

fai index 是纯文本文件,以Tab键分割;

列名 描述
Name 参考序列的名字,一般是">"后面,空格前的值
Length 这条参考序列的总碱基数量
Offset 这条参考序列的首个碱基距离文件头的偏离值
LineBases 每一行中的碱基数量
LineWidth 这一行的总共字节数(一般比碱基数多一个换行符)
QualOffset 这条序列首个质量信息距离文件头的距离值

实际展示

image.png

如图,hs37d5.fa 文件第一行展示,染色体号为1;对应的fai 文件中标注,1 号 染色体全长 249250621 个碱基,第一个碱基距离头部52个字节,每一行60个碱基,每一行61个字节。

由此我们可以计算,249250621/60 得到 4154177 余1 。所以第 4154179 行是第一个染色体的最后一个碱基所在,下一行是染色体2的开端。

代码实现

python

import os,sys

class chunkParser:
    def __init__(self,chunk) -> None:
        self.chunk = chunk

    def seq(self):
        new_chunck = ''
        n = 0
        m = 0
        for i in self.chunk: #这里应该是按字节遍历读取的内存
            m += 1
            if i == 10: # this is \\n(LF) 
                n += 1
                print(m,";",end="")
                continue
            new_chunck += chr(i) # 读取的内存默认是8位的数字,要转化成对应的ascii
        return new_chunck

class fastaReader:
    def __init__(self,fasta) -> None:
        if os.path.exists(fasta):
            self.file = open(fasta,'rb')
            self.index_dic = fastaReader.getIndex(fasta)
        else:
            raise FileNotFoundError

    @staticmethod 
    def getIndex(fasta):
        if os.path.exists(fasta+".fai"):
            index_dic = {}
            with open(fasta+".fai",'r') as f:
                for i in f:
                    t = i.strip().split('\t')
                    index_dic[t[0]] = map(lambda x : int(x),t[1:])
            return index_dic
        else:
            raise FileNotFoundError 

    # 根据index 快速定位到文件的位置
    def fech(self,chrom,start,end):
        start -= 1
        end -= 1 # 索引是以0位开始计算碱基位,即 pos 是0 时对应第一个碱基,但是IGV 中,以及使用习惯上,人们以 1 为第一个碱基。
        assert chrom in self.index_dic, "chrom is not in fai index!\n"
        seq_len,offset,line_base,line_byte = self.index_dic[chrom]
        assert start >= 0 ,"start need bigger than 0 \n"
        assert start <= end , "start is bigger than end!\n"
        assert seq_len >= end, "end is bigger than seq length!\n"
        chunk_size = end - start + 1
        lines = int(start/line_base)
        pos = start % line_base
        shift = offset + lines*line_byte + pos  
        chunk_size  = chunk_size + int((chunk_size+pos-1)/line_base) # 补充pos位,以计算跨越的行,加上每一行的LF
        self.file.seek(shift)
        chunk = self.file.read(chunk_size)
        return chunkParser(chunk)

    def close(self):
        self.file.close()

if __name__ == "__main__":
    from pyfaidx import Faidx
    if len(sys.argv) < 3:
        print(sys.argv[0],"reference 1:10-100")
        sys.exit(1)

    fasta = fastaReader(sys.argv[1])
    chrom,pos = sys.argv[2].split(':')
    start,end = map(lambda x : int(x) ,pos.split('-'))
    seq = fasta.fech(chrom,start,end).seq()
    fasta.close()
    refer = Faidx(sys.argv[1])
    seq2 = refer.fetch(chrom,start,end).seq
    print("### from my won func")
    print(seq)
    print("### from pyfaidx ")
    print(seq2)

C++

#include <string>
#include <iostream>
#include <fstream>
#include <map>
#include<vector>
#include<sstream>
#include<typeinfo>

using namespace std;

class ChunkParse
{
public:
    ChunkParse(char* chunk_in,int len):
        chunk{chunk_in},length{len}{}
    ~ChunkParse(){ delete[] chunk;}
    string seq();

private:
    char* chunk;
    int length;
};

class fastqReader
{
public:
    fastqReader(string fasta_name)
        :fasta{fasta_name}{
            index_dic = get_index(fasta_name);
        }
    ~fastqReader(){fasta.close();}
    ChunkParse fetch(string chrom,int start,int end);
private:
    ifstream fasta;
    map<string,vector<int>> index_dic;
    map<string,vector<int>> static get_index(string& fasta_name);
};

map<string,vector<int>> fastqReader::get_index(string& fasta_name){
        ifstream fai {fasta_name + ".fai",ifstream::binary};
        string chrom;
        int seq_len,offset,line_bases,line_bytes;
        map<string,vector<int>> index_dic;
        for(;fai >> chrom >> seq_len >> offset >> line_bases >> line_bytes;)
            index_dic[chrom] = vector<int>{seq_len,offset,line_bases,line_bytes};
        fai.close();
        return index_dic;
    }

/*
   def fech(self,chrom,start,end):
        start -= 1
        end -= 1 # 索引是以0位开始计算碱基位,即 pos 是0 时对应第一个碱基,但是IGV 中,以及使用习惯上,人们以 1 为第一个碱基。
        assert chrom in self.index_dic, "chrom is not in fai index!\n"
        seq_len,offset,line_base,line_byte = self.index_dic[chrom]
        assert start >= 0 ,"start need bigger than 0 \n"
        assert start <= end , "start is bigger than end!\n"
        assert seq_len >= end, "end is bigger than seq length!\n"
        chunk_size = end - start + 1
        lines = int(start/line_base)
        pos = start % line_base
        shift = offset + lines*line_byte + pos  
        chunk_size  = chunk_size + int((chunk_size+pos)/line_byte) # 补充pos位,以计算跨越的行,加上每一行的LF
        self.file.seek(shift)
        chunk = self.file.read(chunk_size)
        return chunkParser(chunk)

*/
ChunkParse fastqReader::fetch(string chrom,int start,int end)
{
    int seq_len,offset,line_bases,line_bytes;
    vector<int> v = index_dic[chrom];   
    seq_len = v[0];
    offset = v[1];
    line_bases = v[2];
    line_bytes = v[3];
    start--;
    end --;
    int chunk_size = end - start + 1;
    int lines = start/line_bases;
    int pos = start % line_bases;
    int shift = offset + lines*line_bytes + pos;
    chunk_size = chunk_size + (chunk_size+pos-1)/line_bases;
    fasta.seekg(shift);
    char* buffer = new char[chunk_size];
    fasta.read(buffer,chunk_size);
    return ChunkParse(buffer,chunk_size);
}

string ChunkParse::seq()
{
    string s;
    for(int i=0;i<length;i++)
    {
        if(chunk[i] != '\n') s += chunk[I];
    }
    return s;
}

// for string delimiter
vector<string> split (string s, string delimiter) {
    size_t pos_start = 0, pos_end, delim_len = delimiter.length();
    string token;
    vector<string> res;

    while ((pos_end = s.find (delimiter, pos_start)) != string::npos) {
        token = s.substr (pos_start, pos_end - pos_start);
        pos_start = pos_end + delim_len;
        res.push_back (token);
    }

    res.push_back (s.substr (pos_start));
    return res;
}

int main(int argc,char *argv[])
{
    if(argc < 3){
        cerr << argv[0] << " reference 1:1-100\n";
        return -1;
    }
    vector<string> regin_v = split(argv[2],":");
    string chrome = regin_v[0];
    stringstream ss{regin_v[1]};
    int start,end;
    char delimter;
    ss >> start >> delimter >> end;
    fastqReader fasta {argv[1]};
    string seq = fasta.fetch(chrome,start,end).seq();
    cout << seq;

}

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,186评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,858评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,620评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,888评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,009评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,149评论 1 291
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,204评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,956评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,385评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,698评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,863评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,544评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,185评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,899评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,141评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,684评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,750评论 2 351

推荐阅读更多精彩内容