一:geisen_main_v1_2_1文件夹
(1)geisen_main_v1_2_1/src/geisen/downloader.py :
主要函数:
①download_data_set :用于异构下载。
输入文件为:name_of_dataset string 和folder_contains_dots,
输出文件:locations_of_storage,一个包含每个文件的存储路径列表
②download_genome: 用于基因组文件下
② download_genome:下载taxon_of_interest的基因组信息
输入文件: taxon_of_interest中ncbi分类法的 ID号
subset_of_interest NIH使用的扩展
输出文件:p_out
使用的数据资源为:基因,来自基因组RNA的编码序列和经验证的RNA序列获自Genbank(Genome version GRCh38.p10)(ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/
GCF_000001405.36_GRCh38.p10)
(2)geisen_main_v1_2_1/src/geisen/settings.py:这个文件是geisen_main_v1_2_1/src/geisen/downloader.py文件的下载相关参数设置
(3)geisen_main_v1_2_1/src/geisen/genealacart.py :这个模块包含了提取特定数据集的工具,它对下载的数据进行了整理。具体有以下几点:
①将从genealacard加载选定的数据集并以与生物学项目科学一致的格式导出
②加载genealacart数据集
③从ENCODE中加载增强子。并将它们放在可由gene_ncbi索引的格式中
④获取GIFT得分,它表示数据库中出现基因的部分。被genealacart用作基因一般注释密度的代理。
⑤加载启动子中的转录因子
⑥加载不耐受指标。并将它们放置在gene_ncbi可索引的格式中
⑦加载疾病指标。并将它们放在可由gene_ncbi索引的格式中。
⑧加载人类表型本体论。并将它们放在可由gene_ncbi索引的格式中
⑨获取具有明确Input Term, Symbol 和 Entrez Gene
⑩创建数据库,其中一列中的条目分隔为多行
(4)geisen_main_v1_2_1/src/geisen/gxa.py:从Matt Antalek (Rick Morimoto实验室)下载了几种模型生物的170222组织数据。
(5)geisen_main_v1_2_1/src/geisen/mapper.py(该文件是对下载的数据进行处理)
该文件夹中包含了以下这些功能:
①将ensembl基因ID映射到NCBI (Entrez)基因ID。只考虑ensembl和entrez基因id的明确1:1映射
②将位点标记映射到NCBI的 (Entrez)基因ID。只考虑明确的 1:1映射。
③通过unprot (swissprot and trembl)在ncbi分类法IDs和分类单元名称之间手动检索查找
⑤将ensembl转录本ID映射到NCBI (Entrez)基因ID。
⑥将带有基因符号id的数据流映射到gene_ncbi
⑦将带有uniprot_protein IDs的数据结构映射到gene_ncbi
⑧对数据结构进行分组,并返回按gene_ncbi进行分组的数据结构,并通过how进行汇总
⑨检查索引或给定数据框架df列的 id_name 的存在,如果id是不明确的(出现在索引和列中)或不存在,将抛出错误
⑩获取一个系列中的重复值
2019.3.29
(6)geisen_main_v1_2_1/src/geisen/papers.py
该文件是从过去发表的出版物中提取一些适当的特征,用于机器学习。
如:
①从Blomen等人提取合适的表型并将其与NCBI gene ID一起保存,只能检索CRISPR cassettes的插入,并且将对KBM7和HAP1细胞进行检索。
②从Hart等人提取合适的表型并将其与NCBI gene ID一起保存。
③Itzhak等人于2016年测量了HeLa细胞的蛋白质定位和丰度
④由Lek等人于2016年出版的ExAc数据库
⑤处理Rolland等人2014年的补充数据。输出其考虑的基因,计算相互作用和相互作用的二进制表
⑥人类基因专利数据。注意,公司通常为一个n-mer序列及其变体申请专利,因此他们实际上并不为单个基因申请专利,而是为与基因有一定相似性的序列申请专利。
⑦人蛋白质图谱的蛋白质亚细胞定位
⑧形成人类蛋白质图谱RNA 转录本数据。
⑨Wang等人。(功能缺失突变监测适应性)
⑩将具有标称值的PANDAS数据数据结构转换为具有布尔值分类的PANDAS数据结构。
(7)geisen_main_v1_2_1/src/geisen/prepare.py:该文件夹是下载数据和收集各种特征等准备工作
使用的数据资源有:
基因,来自基因组RNA的编码序列和经验证的RNA序列获自Genbank(Genome version GRCh38.p10)(ftp://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/405/GCF_000001405.36_GRCh38.p10)
基因和染色体的名称于2017年初从NCBI NIH获得(https://ftp.ncbi.nlm.nih.gov/gene/DATA/gene_info.gz)。
第一层:下载数据并生成相应的数据集
①从biogrid下载蛋白质相互作用数据库:
②从ncbi下载生物系统,并将其格式化以供进一步使用。生物系统在NCBI上具有两个版本(有GO注释和没有GO注释),这里没有GO的版本用于避免与gene2go重复
③将生物系统按taxon分开
④创建特定于分类单元的逗号分隔表,列出基因的基本属性(例如:GC内容、长度)
⑤创建以逗号分隔的表,其中列出了经过验证的RNA转录本的几个属性。包括:RNA的长度和编码序列,RNA中的核苷酸和编码序列,密码子偏倚的度量
⑥创建特定于分类单元的逗号分隔表,列出RNA转录本的预测编码序列(CDS)的几个属性。包括:RNA和核苷酸的长度(收集Genebank中RNA的特征)
⑦创建以逗号分隔的表,列出基因组预测的RNA转录本的几个特性。包括:RNA和核苷酸的长度
⑧从ncbi下载gene_info(基因信息),并将其格式化以供进一步使用
⑨下载gene2ensembl,并将其格式化以便进一步使用
⑩下载gene2go,并将其格式化以便进一步使用
⑪从NCBI上下载gene2pubmed并将其格式化以便进一步使用
⑫从NCBI中下载generifs_basic,并将其格式化以便进一步使用
⑬从基因检测登记处下载数据集
⑭下载uniprot数据库,创建完整的uniprot数据库下载
⑮准备Uniprot的ID映射
⑯从NCBI中下载taxdmp,并将其格式化以便进一步使用(taxdmp可以提供物种对应的rank信息)
第二层:这些数据集的生成要求首先执行第1层函数(并且成功地创建了相应的第1层数据集)
①提取关于染色体的信息
②Flybase黑腹果蝇(Drosophila melanogaster)内维持一个维护良好的基因表达集合。分离单个数据集,如modENCODE组织序列
2019.3.30
③Gerstein实验室维持了一个来自modENCODE的部分过时的(在其位点注释中)基因表达数据集,样本注释处于一个糟糕的状态,尽管modENCODE帮助会转发/CC它们并对它们进行直接处理,但是它们不能为许多样本提供适当的注释。这个函数将加载秀丽隐杆线虫的官方modENCODE高级代表
④从NCBI中下载同源基因,并将其格式化以便进一步使用
⑤将interpro数据库以一种易于使用的格式放置。Interpro是一个大型数据库,它联合了几个关于蛋白质的数据库。注意,单个数据库可以有引用相同interpro ID的条目(因此具有相同的蛋白质属性)。
⑥参考蛋白质数据库,提取分类单元特异性FASTA文件。
第三层函数:特征的注释
提取氨基酸的性质(包括衍生性质,如gravy和等电点),并将结果保存为逗号分隔的文件。
第四层函数:
①从一个分类单元的基因特异性计算中获得最佳排列的RADAR预测(分子内相似性),并将其保存为逗号分隔的文件
②从一个taxon的特异性基因的计算中获得SEG(序列复杂度),并将其保存为逗号分隔的文件,以便使用中位数映射到ncbi_gene_id
③从一个taxon的基因特异性计算中获得 signalP(信号肽和多跨膜),并将其保存为逗号分隔的文件
支持函数:这些支持性函数我认为是用来整理上面那些函数所下载的数据
①提取蛋白质氨基酸序列和性质。忽略并去除未定义的氨基酸,基本上只留下略微截短的蛋白质
②检查给定序列是否以起始密码子开始,以终止密码子结束,并由三的整数倍数组成,这表明不存在移码。
③计算腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶的含量
计数胞嘧啶+鸟嘌呤分数(CG含量)
计算腺嘌呤、胞嘧啶、鸟嘌呤和胸腺嘧啶的总数(忽略未定义的核苷酸)
④将解析一个限定符列表并返回ncbi基因ID。如果基因ID不明确,或者没有找到,将返回nan(从限定符号列表中提取NCBI中基因的ID号)
⑤从uniprot表头中提取uniprot ID
⑥获取密码子选择偏倚的几个指标
⑦计算标准密码子的使用情况。
⑧seg的解析输出(低紧度提取程序)
⑨检查一个序列是否只由已知的ACGT核苷酸组成
⑩在给定字典中的每个键名前插入前缀和_
⑪提取单个蛋白序列(属于taxon_id定义的分类单元)作为FASTA,用于启动批处理(例如:通过RADAR),将忽略蛋白质片段。
⑫提取属于taxon_id定义的分类单元的蛋白质序列,作为FASTA(例如:用于SEG处理)。忽略蛋白质片段。
⑬在描述中没有找到返回wheter(片段)
⑭将包含表达数据的gerstein lab excel文件加载到panda数据流中;删除不需要的额外列
⑮加载完全映射的Uniprot
⑯检索到uniprot数据库(如swiss-prot或trmbl)的路径
⑰将两个数据格式保存到同一个文件夹中,第一个数据格式具有postfix_orig,而另一个数据格式具有postfix _ncbi_gene。