用python根据指定染色体及坐标得到位置信息（第十题）

基因的chr,start,end都是已知的 (这个文件需要下载，可以是UCSC，或者NCBI)，也就是TSS文件。
测试文件见我的github.

import sys#引入sys模块
import os
os.chdir('D:/python/question10')
args = sys.argv#调用命令行参数

class Genome_info:#创建类Genome_info
    def __init__(self):
        self.chr = ""
        self.start = 0
        self.end = 0#初始化属性

class Gene(Genome_info):#创建父类Genome_info之下的类Gene
    def __init__(self):
        Genome_info.__init__(self)
        self.orientation = ""
        self.id = "" #初始化属性

list_chr = {} #定义染色体列表
with open('TSS.bed') as fp_gene: #导入参数1，即TSS.txt
    for line in fp_gene:
        if line.startswith("#"): #如果某行以#开头则越过
            continue

        lines = line.strip("\n").split("\t") #每行去除换行，以制表符分割
        id = lines[0] #第一栏为基因id
        chr = lines[1] #第二栏为染色体号
        start = int(lines[2]) #第三栏转为整数型
        end = int(lines[3]) #第四栏转为整数型
        orientation = lines[4] #第五栏为基因方向

        if not chr in list_chr: #如果染色体号在列表里不存在就初始化一下
            list_chr[chr] = {}

        gene = Gene() #初始化基因
        gene.chr= chr #初始化染色体
        gene.start = start #初始化基因起始位点
        gene.end = end #初始化基因结束位点
        gene.id = id #初始化ID
        gene.orientation = orientation #初始化基因方向
        list_chr[chr][id] = gene #将基因键、值存入list_chr字典

with open('pos.txt') as fp_pos: #导入参数2，即pos.txt
    for line in fp_pos:
        gene_list = [] #初始化gene_list
        lines = line.strip('\n').split('\t') #每行去除换行，用制表符分割
        (chr, start, end) = (lines[0], int(lines[1]), int(lines[2])) #取出染色体号，起始坐标和结束坐标，后两者均转为整数型
        for gene_id, gene in list_chr[chr].items(): #判断pos.txt中基因位置与TSS.txt中是否有重叠
            if gene.start <= start <= gene.end or gene.start <= end <= gene.end or start <= gene.start <= end or start <= gene.end <= end:
                gene_list.append(gene.id) #如有则将基因ID添加至列表gene_list
        print(gene_list) #输出gene_list

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

用python根据指定染色体及坐标得到位置信息（第十题）

用python根据指定染色体及坐标得到位置信息（第十题）

相关阅读更多精彩内容

友情链接更多精彩内容