1. Introduction
GDC(Genomic Data Commons, 基因组数据共享中心)接收、处理和分发来自癌症研究项目的基因组、临床和生物样本数据。
2. GDC Data Model
GDC数据模型是组织GDC中所有数据构件的中心方法。GDC网站上提供了数据模型的概述,包括其组件的可视化表示。本节为数据用户、提交者和开发人员提供有关其实现的技术详细信息。
2.1 Entities实体
尽管GDC数据模型可能包含一些循环元素,但将其视为由互连实体组成的有向无环图(Directed Acyclic Graph,DAG)会很有帮助。GDC中的每个实体都有一组属性和链接。
2.2 Properties属性
属性是与实体关联的键值对。属性不能嵌套,这意味着该值必须是数值、布尔值或字符串,而不能是另一个键值集。属性可以是必需的,也可以是可选的。以下属性在构建GDC数据模型时特别重要:
- Type
不可或缺。实体类型包括:project, case, demographic(人口统计), sample, read_group and others. - System properties
系统属性是GDC系统运行和维护中使用的属性。除非在特殊情况下,否则不能修改它们。 - Unique keys
唯一键是可用于在GDC中唯一标识实体的属性或属性组合。例如,[project_id,submitter_id]的元组(组合)对于大多数实体都是唯一的键,这意味着虽然submitter_id在GDC中不需要是唯一的,但它在项目中必须是唯一的。
2.3 Links连接
连接定义实体之间的关系以及这些关系的多样性(例如,一对一、一对多、多对多)。
2.4 GDC Data Dictionary
GDC Data Dictionary(GDC数据字典)根据实体类型确定实体可以具有哪些属性和链接。功能相似的实体类型归入同一个category。例如,实体类型slide_image和submitted_unaligned_reads属于 data_file category,该category包含表示可下载文件的实体。
2.5 GDC标识码(GDC Identifiers)
2.5.1 UUID
创建实体时,会为其分配版本4通用唯一标识符(universally unique identifier, UUID)形式的唯一标识符。UUID唯一标识GDC中的实体,并存储在实体的id属性中。
2.5.2 Program name,Project Code, and Project ID
- Program是GDC数据集的最高组织级别。每个Program都分配有一个唯一的program.name属性,且Program.name从不包含连字符。
- Program中的数据集被组织到Project中,并为每个Project分配一个project.code属性。
- project_id属性与GDC数据模型中的大多数实体相关联。通过将project.code附加到program.name中生成project_id。
2.5.3Submitter ID
该属性可以包含提交者希望用来标识实体的任何字符串(比如一个barcode),这可用于标识提交者记录中的相应实体。GDC要求submitter_id对于项目中的每个实体都是唯一的:[project_id,submitter_id]的元组(组合)是唯一的键。注意:case实体的submitter_id对应于project的dbGaP记录中研究参与者的submitter_subject_id。
2.6 数据获取流程和工具
可以通过基于用户的基于Web的GDC数据门户访问GDC中的数据,该门户允许浏览,查询和下载数据和元数据。另外,GDC提供了用于下载大量数据的命令行工具,以及用于以编程方式访问GDC功能的应用程序编程接口(API)。
2.6.1 open和controlled的访问数据
GDC中的某些数据是开放访问的,这意味着无需身份验证或授权即可访问它。其他数据是受控制的访问,这意味着访问需要dbGaP授权和eRA Commons身份验证。在研究参与者的知情同意的情况下,根据Data Access Policies确定数据集是开放的还是受控的。
- 开放获取数据通常包括无法单独识别的高级基因组数据,以及大多数临床和所有生物样本数据元素。
- 受控数据通常包括可单独识别的数据,例如低水平基因组测序数据,种系变体,SNP6基因型数据和某些临床数据元素。特定程序的数据访问委员会授予对受控数据的访问权限。
2.6.2 数据获取流程
在GDC Data Potal(GDC数据门户)为用户提供基于网络的浏览、查询和下载数据的设施。
登陆
- 要下载受控制的访问数据,用户必须登录eRA Commons并可以通过dbGaP访问数据。
- 访问开放访问数据时无需登录。通过GDC数据门户,用户可以查询数据并将文件添加到购物车中以进行下载。
下载方式
- 对于少量的元数据和数据,用户可以直接从GDC数据门户下载数据。
- 对于大批量数据,用户可以使用GDC Data Transfer Tool(GDC数据传输工具)下载数据,该工具基于客户端,旨在实现高效的数据传输。
- 要使用数据传输工具一次下载多个文件,用户可以在GDC数据门户中创建和下载manifest(清单)。要下载受控的访问数据,用户可以从GDC数据门户下载token(令牌)。
-
GDC Application Programming Interface (应用程序编程接口, API)也可用于以编程方式下载数据。
下载方式比较
GDC Data Portal | GDC Data Transfer Tools | GDC API | |
---|---|---|---|
基于 | Web | 客户端 | 程序 |
智能搜索高级查询语言 | √ | ||
使用facet预定过滤器搜索数据 | √ | √ | |
分析数据可视化 | √ | ||
需要dbGaP下载受控数据 | √ | √ | √ |
下载小批量数据 | √ | √ | √ |
下载大批量数据 | √ | √ |
3. Data Security
4. file format(文件格式)
4.1 MAF
Mutation Annotation Format(MAF)是一个制表符分隔的文本文件,包含来自VCF文件的整合过的突变信息,在project级别生成。
4.1.1 MAF文件概述
MAF文件由 Somatic Aggregation Workflow 生成。GDC会在两个权限级别上生成MAF文件:protected.maf和somatic.maf(开放访问)。每个GDC项目调用不同的pipeline就会产生一个MAF文件。通过汇总每个项目的pipeline、整合带有GDC注释的VCF文件以生成MAF文件。带注释的VCF文件经常记录多个转录本上变体,而从VCF(*protected.maf)生成的MAF只记录受最严重影响的那个。
- 体细胞MAFs(*somatic.maf),也被称为Masked Somatic Mutation文件,通过进一步处理以移除质量较低的和潜在的生殖系变异。对于包含来自tumor-normal等分对的多个组合的变异的肿瘤样本,根据其样本类型在体细胞MAF中仅选择一对。
- Somatic MAF是公开可用的。
4.1.2 Somatic MAF File Generation
以下是从protected.maf到somatic.maf的转换流程:
Aliquot Selection等分选择:根据从肿瘤TCGA等分条码中提取的牌号、样本类型、分析物类型和其他特征,为每个肿瘤样本仅选择一个tumor-normal对。
低质量变异过滤和胚系掩蔽
删除以下列:
– vcf_region
– vcf_info
– vcf_format
– vcf_tumor_gt
– vcf_normal_gt
– GDC_Valid_Somatic-
设定可能包含生殖系基因型信息的列的值为空:
– Match_Norm_Seq_Allele1
– Match_Norm_Seq_Allele2
– Match_Norm_Validation_Allele1
– Match_Norm_Validation_Allele2
– n_ref_count
– n_alt_count
4.1.3 Protected MAF File Structure
下表描述了Protected MAF中的列及其定义。请注意,除了去掉最后六列外,Somatic MAF(open)结构是相同的。
柱 | 描述 |
---|---|
1-Hugo_Symbol | HUGO Symbol的基因(HUGO symbols总是在全部大写)。“unknow”用于与基因不对应的区域 |
2-Enter_Gene_Id | Entrez gene ID(整数)。“ 0”用于与基因区域或Ensembl ID不对应的区域 |
3-Center | 一个或多个基因组测序中心报告了该变异 |
4-NCBI_Build | 用于比对的参考基因组(GRCh38) |
5-Chromosome | 受影响的染色体(chr1) |
6-Start_Position | 报告的变体在基因组参考序列上的最低数字位置。变异起始座标 |
7-End_Position | 报告的变体在基因组参考序列上的最高数字基因组位置。变异结束坐标 |
8-Strand | 报告的等位基因的基因组链。目前,所有变体都将报告正链:“ +” |
9-Variant_Classification | 变异等位基因的翻译作用 |
10-Variant_Type | 突变类型。TNP(三核苷酸多态性)类似于DNP(二核苷酸多态性),但连续三个核苷酸。ONP(寡核苷酸多态性)类似于TNP,但连续运行四个或更多(SNP,DNP,TNP,ONP,INS,DEL或合并) |
11-Reference_Allele | 正链参考等位基因在此位置。包括删除的序列(用于删除)或“-”(用于插入) |
12-Tumor_Seq_Allele1 | 肿瘤测序(发现)等位基因1的主要数据基因型。缺失的“-”符号代表变异。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基 |
13-Tumor_Seq_Allele2 | 肿瘤测序(发现)等位基因2 |
14-dbSNP_RS | 来自 dbSNP数据库rs-IDs,如果在使用的任何数据库中均未找到,则为“ novel”;如果没有dbSNP记录,但在其他数据库中找到,则为null |
15-dbSNP_Val_Status | dbSNP验证状态报告为以分号分隔的状态列表。如果存在多个,则采用所有rs-ID的并集 |
16-Tumor_Sample_Barcode | 肿瘤样本的等分条形码 |
17-Matched_Norm_Sample_Barcode | 匹配的正常样品的等分条形码 |
18-Match_Norm_Seq_Allele1 | 主要数据基因型。匹配的正常测序等位基因1.缺失的“-”符号代表变体。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基(在体细胞MAF中清除) |
19-Match_Norm_Seq_Allele2 | 匹配的正常测序等位基因2 |
20-Tumor_Validation_Allele1 | 来自正交技术的辅助数据。等位基因1的肿瘤基因分型(验证)。缺失的“-”符号代表变体。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基 |
21-Tumor_Validation_Allele2 | 来自正交技术的辅助数据。等位基因2的肿瘤基因分型(验证) |
22-Match_Norm_Validation_Allele1 | 来自正交技术的辅助数据。等位基因1的匹配正常基因分型(验证)。缺失的“-”符号代表变异。插入的“-”符号表示野生型等位基因。用于插入的新插入序列不包括侧翼参考碱基(在体细胞MAF中清除) |
23-Match_Norm_Validation_Allele2 | 来自正交技术的辅助数据。等位基因2的匹配正常基因分型(验证)(在体细胞MAF中清除) |
24-Verification_Status | 第二次通过是通过独立尝试使用与主要数据源相同的方法得出的。通常为3730 Sanger测序保留 |
25-Validation_Status | 正交技术的第二遍结果 |
26-Mutation_Status | 对体细胞,种系,LOH,转录后修饰,未知或无突变的评估。该字段中允许的值受Validation_Status字段中的值约束 |
27-Sequencing_Phase | TCGA测序阶段(如果适用)。在所考虑的目标发生变化的任何情况下,阶段都应发生变化 |
28-Sequencing_Source | 用于产生用于测序的分析物的分子分析类型。允许的值是SRA 1.5 library_strategy字段值的子集。此子集与CGHub上使用的子集匹配 |
29-Validition_Method | 用于验证调用的测定平台 |
30-Score | 未使用 |
31-BAM_File | 未使用 |
32-Sequencer | 用于产生初级序列数据的仪器 |
33-Tumor_Sample_UUID | GDC等分试样UUID用于肿瘤样品 |
34-Matched_Norm_Sample_UUID | 匹配正常样品的GDC等分试样UUID |
35-HGVSc | HGVS建议格式的变体编码顺序 |
36-HGVSp | HGVS建议格式的变体蛋白序列。“ p。=”表示蛋白质没有变化 |
37-HGVSp_Short | 与HGVSp列相同,但使用1个字母的氨基酸代码 |
38-Transcript_ID | 受变异影响的转录本的ENSEMBL ID |
39-Exon_Number | 外显子数(来自总数) |
40-t_depth | 肿瘤BAM中该基因座的read深度 |
41-t_ref_count | read深度支持肿瘤BAM中的参考等位基因 |
42-t_alt_count | read支持肿瘤BAM中变异等位基因的深度 |
43-n_depth | 正常BAM中此基因座的read深度 |
44-n_ref_count | 正常BAM中支持参考等位基因的read深度(在体细胞MAF中清除) |
45-n_alt_count | 支持正常BAM中变异等位基因的read深度(在Somatic MAF中清除) |
46-all_effects | 以分号分隔的所有可能的变体效果列表,按优先级排序([符号,结果,HGVSp_Short,Transcript_ID,RefSeq,HGVSc,Impact,Canonical,Sift,PolyPhen,Strand]) |
47-Allele | 用于计算结果的变异等位基因 |
48-Gene | 受影响基因的稳定整合体ID |
49-Feature | 功能的稳定Ensembl ID(transcript, regulatory, motif) |
50-Feature_type | 功能类型。当前是Transcript, RegulatoryFeature, MotifFeature (or blank)) |
51-One_Consequence | 标准转录本的唯一结果 sequence ontology术语 |
52-Consequence | 此变体的后果类型; sequence ontology项目 |
53-cDNA_Position | 碱基对在cDNA序列中的相对位置(以分数表示)。如果变体未出现在cDNA中,则分子显示为“-”符号 |
54-CDS_position | 碱基对在编码序列中的相对位置。如果变体未出现在编码序列中,则分子显示为“-”符号 |
55-Protein_Position | 蛋白质中受影响氨基酸的相对位置。如果变体未出现在编码序列中,则分子显示为“-”符号 |
56-Amino_acids | 仅当变异影响蛋白质编码序列时才给出 |
57-Codons | 带有大写变体碱基的替代密码子 |
58-Existing_variation | 现有变化的已知标识符 |
59-ALLELE_NUM | 输入的等位基因编号;0是参考,1是第一个替代,依此类推。 |
60-DISTANCE | 从变体到转录本的最短距离 |
61-TRANSCRIPT_STRAND | 转录本/特征所在的DNA链(1或-1) |
62-SYMBOL | 基因符号 |
63-SYMBOL_SOURCE | 基因符号的来源 |
64-HGNC_ID | HUGO基因命名委员会的基因标识符(如果适用) |
65-BIOTYPE | Transcript的生物型 |
66-CANONICAL | 标记(YES)表示基于VEP的规范转录本(翻译时间最长)已用于该基因。如果不是,则该值为null |
67-CCDS | 此转录本的CCDS标识符(如果适用) |
68-ENSP | 受影响的转录本的Ensembl蛋白质标识符 |
69-SWISSPROT | UniProtKB / Swiss-Prot加入 |
70-TREMBL | 蛋白质产品的UniProtKB / TrEMBL标识符 |
71-UNIPARC | 蛋白质产品的UniParc标识符 |
72-RefSeq | 此转录本的RefSeq标识符 |
73-SIFT | 的 SIFT预测和/或得分,两者均作为预测(得分) |
74-PolyPhen | 的 PolyPhen预测和/或得分 |
75-EXON | 外显子数(总数中) |
76-INTRON | 内含子编号(总数中) |
77-DOMAINS | 任何重叠蛋白质结构域的来源和标识符 |
78-GMAF | 非参考等位基因和现有变异的频率( in 1000 Genomes) |
79-AFR_MAF | 非洲人群-1000 Genomes中非参考等位基因和现有变异的频率 |
80-AMR_MAF | 1000 Genomes-美国人群中非参考等位基因和现有变异的频率 |
81-ASN_MAF | 1000 Genomes-亚洲人群中非参考等位基因和现有变异的频率 |
82-EAS_MAF | 1000 Genomes-东亚人群的非参考等位基因和现有变异的频率 |
83-EUR_MAF | 1000 Genomes-欧洲人群中非参考等位基因和现有变异的频率 |
84-SAS_MAF | 1000 Genomes-南亚人群的非参考等位基因和现有变异的频率 |
85-AA_MAF | 非参考等位基因和现有变异的频率 NHLBI-ESP非洲裔美国人群 |
86-EA_MAF | NHLBI-ESP欧美人群中非参考等位基因和现有变异的频率 |
87-Clin_SIG | dbSNP变异体的临床意义 |
88-SOMATIC | 在Existing_variation(0、1或null)下报告的每个ID的体细胞状态 |
89-PUBMED | 引用现有变体的出版物的Pubmed ID |
90-MOTIF_NAME | 在此位置对齐的转录因子结合图谱的来源和标识符 |
91-MOTIF_POS | 对齐的TFBP中变化的相对位置 |
92-HIGH_INF_POS | 指示变体是否落在转录因子结合图谱(TFBP)的较高信息位置的标志(Y,N或null) |
93-MOTIF_SCORE_CHANGE | TFBP参考序列和变异序列的基序得分差异 |
94-IMPACT | 结果类型的影响修饰符 |
95-PICK | 指示此结果数据块是否由VEP的 pick feature(1或null) |
96-VARIANT_CLASS | 序列本体变体类 |
97-TSL | Transcript support level,基于独立的RNA分析 |
98-HGVS_OFFSET | 表示此变体的HGVS表示法已移动多少个碱基 |
99-PHENO | 指示现有变体是否与表型,疾病或性状相关(0、1或null) |
100-MINIMISED | 此变量中的等位基因在结果计算之前已转换为最小表示形式(1或null) |
101-ExAC_AF | 来自的全球等位基因频率 ExAC |
102-ExAC_AF_Adj | 从ExAC调整的全球等位基因频率 |
103-ExAC_AF_AFR | ExAC的非洲/非裔美国人等位基因频率 |
104-ExAC_AF_AMR | ExAC的美国等位基因频率 |
105-ExAC_AF_EAS | ExAC的东亚等位基因频率 |
106-ExAC_AF_FIN | ExAC的芬兰等位基因频率 |
107-ExAC_AF_NFE | ExAC的非芬兰欧洲等位基因频率 |
108-ExAC_AF_OTH | ExAC的其他等位基因频率 |
109-ExAC_AF_SAS | ExAC的南亚等位基因频率 |
110-GENE_PHENO | 指示变体映射到的基因是否与表型,疾病或性状相关(0、1或null) |
111-FILTER | 从输入VCF复制。这包括由变体调用程序和DNA-Seq管道中使用的其他外部软件直接实现的过滤器。有关其他详细信息,请参见下文。 |
112-CONTEXT | 每个VCF规格的参考等位基因及其五个侧翼碱基对 |
113-src_vcf_id | 输入的VCF文件的GDC UUID |
114-tumor_bam_uuid | 肿瘤bam文件的GDC UUID |
115-normal_bam_uuid | 普通bam文件的GDC UUID |
116-case_id | 案件的GDC UUID |
117-GDC_FILTER | GDC滤波器普遍应用于所有MAF |
118-COSMIC | 重叠的COSMIC变体 |
119-MC3_Overlap | 指示该区域是否与同一样本对的MC3变体重叠 |
120-GDC_Validation_Status | GDC实施有效性检查。有关详细信息,请参见下面的注释部分(#5) |
121-GDC_Valid_Somatic | 是非题(不适用于躯体MAF) |
122-vcf_region | 用冒号分隔的字符串,包含来自VCF文件的CHROM,POS,ID,REF和ALT列(例如,chrZ:20:rs1234:A:T)(不在Somatic MAF中) |
123-vcf_info | VCF中的INFO列(不在Somatic MAF中) |
124-vcf_format | VCF中的FORMAT列(不在Somatic MAF中) |
125-vcf_tumor_gt | VCF的肿瘤样本基因型列(不在Somatic MAF中) |
126-vcf_normal_gt | 来自VCF的正常样本基因型列(不在体细胞MAF中) |
4.1.4 使用MAF时参数的注意事项
- 第4列,NCBI_Build为GRCh38(by default)。
- 第32列,Sequencer包括使用的测序设备。如果使用不同的测序设备来生成正常和肿瘤数据,则会首先列出正常的测序设备。
- 第61列,VEP名称“STRAND”改为TRANSCRIPT_STRAND以避免与第8列的“Strand”混淆。
- 第94列,IMPACT类别由VEP软件定义,不一定反映每个突变的相对生物影响。
- 第122-125列,vcf_info, vcf_format, vcf_tumor_gt, and vcf_normal_gt是来自VCF文件的相应列。包括它们有助于解析特定的变体信息。
- 第120列,**GDC_Validation_Status:GDC还收集TCGA验证序列。它将这些与来自同一样本的NGS数据的变体进行比较,并将比较结果填充到“GDC_VALIDATION_STATUS”中。
- “Valid”:肿瘤验证序列中的替代等位基因与GDC变体调用相同
- “Invalid”:肿瘤验证序列中的替代等位基因与GDC变体调用都不相同
- “Inconclusive”:存在两个替代等位基因,且一个匹配、一个不匹配
- “Unknown”:不存在验证序列
- 第121列,当GDC_VALIDATION_STATUS为“Valid”,且variant为“Somatic”时,GDC_Valid_Somatic为TRUE,否则FALSE
4.1.5 FILTER(111列)值的定义
- oxog:表示此变体被确定为OxoG工件。这是用D-ToxoG计算的.
- bPcr:表示该变体被确定为PCR模板链上的偏差伪影。这是用DKFZ偏置滤波器计算的。
- bSeq:表示该变体被确定为正向/反向链上的偏差伪像。这也是用DKFZ偏置滤波器计算的。
4.1.6 Impact Categories
-
VEP
- HIGH(H):假定该变体对蛋白质具有高(破坏性)影响,可能导致蛋白质截断、功能丧失或触发无意义介导的衰退
- MODERATR(M):可能改变蛋白质有效性的非破坏性变体
- LOW(L):假设大部分无害或不太可能改变蛋白质行为
- MODIFIER(MO):通常是非编码变体或影响非编码基因的变体,在这种情况下预测困难或没有证据表明影响
-
Polyphen
- probably damaging(PR):具有很高的可信度,它被认为影响蛋白质功能或结构
- prossibly damaging(PO):它被认为影响蛋白质功能或结构
- benign(BE):最有可能缺乏任何表型效应
- unknown(UN):在某些罕见情况下,缺乏数据不允许PolyPhen进行预测筛选
-
SIFT
- tolerated:不太可能有表型效应
- toelrated_low_confidence:比“tolerated”更有可能有表型效应
- deleterious:可能有表型效应·
- deleterious_low_confidence:比“deleterious”更不可能有表型效应
4.2 VCF
4.2.1 VCF文件介绍
The GDC DNA-Seq somatic variant-calling pipeline compares a set of matched tumor/normal alignments and produces a VCF file. VCF files report the somatic variants that were detected by each of the four variant callers. Four raw VCFs (Data Type: Raw Simple Somatic Mutation) are produced for each tumor/normal pair of BAMs. Four additional annotated VCFs (Data Type: Annotated Somatic Mutation) are produced by adding biologically relevant information about each variant.
The GDC VCF file format follows standards of the Variant Call Format (VCF) Version 4.1 Specification. Raw Simple Somatic Mutation VCF files are unannotated, whereas Annotated Somatic Mutation VCF files include extensive, consistent, and pipeline-agnostic annotation of somatic variants.
4.2.2 VCF文件结构
Metadata header
A VCF file starts with lines of metadata that begin with ##
. Some key components of this section include:
gdcWorkflow: Information on the pipelines that were used by the GDC to generate the VCF file. Annotated VCF files contain two gdcWorkflow lines, one that reports the variant calling process and one that reports the variant annotation process.
INDIVIDUAL:
information about the study participant (
case
), including:
NAME: Submitter ID (barcode) associated with the participant
ID: GDC case UUID
SAMPLE:
sample information, including:
ID: NORMAL or TUMOR
NAME: Submitter ID (barcode) of the aliquot
ALIQUOT_ID: GDC aliquot UUID
BAM_ID: The UUID for the BAM file used to produce the VCF
INFO:
Format of
additional information
fields
NOTE: GDC Annotated VCFs may contain multiple INFO lines. The last INFO line contains information about annotation fields generated by the Somatic Annotation Workflow (see GDC INFO Fields below).
FILTER: Description of filters that have been applied to the variants
FORMAT: Description of genotype fields
reference: The reference genome used to generate the VCF file (GRCh38.d1.vd1.fa)
contig:
A list of IDs for the contiguous DNA sequences that appear in the reference genome used to produce VCF files
NOTE: Annotated VCFs include contig information for autosomes, sex chromosomes, and mitochondrial DNA. Unplaced, unlocalized, human decoy, and viral genome sequences are not included.
VEP: the VEP command used by the Somatic Annotation Workflow to generate the annotated VCF file.
Column Header Line
Each variant is represented by a row in the VCF file. Below each of the columns are described:
- CHROM: The chromosome on which the variant is located
- POS: The position of the variant on the chromosome. Refers to the first position if the variant includes more than one base
- ID: A unique identifier for the variant; usually a dbSNP rs number if applicable
- REF: The base(s) exhibited by the reference genome at the variant's position
- ALT: The alternate allele(s), comma-separated if there are more than one
- QUAL: Not populated
- FILTER: The names of the filters that have flagged this variant. The types of filters used will depend on the variant caller used.
- INFO: Additional information about the variant. This includes the annotation applied by the VEP.
- FORMAT: The format of the sample genotype data in the next two columns. This includes descriptions of the colon-separated values.
- NORMAL: Colon-separated values that describe the normal sample
- TUMOR: Colon-separated values that describe the tumor sample
See Variant Call Format (VCF) Version 4.1 Specification for details.
4.2.3 GDC INFO fields
Field | Description | 中文描述 |
---|---|---|
Allele | The variant allele used to calculate the consequence | 用于计算结果的变异等位基因 |
Consequence | Consequence type of this variant | 此变体的后果类型 |
IMPACT | The impact modifier for the consequence type | 结果类型的影响修饰符 |
SYMBOL | The HUGO gene symbol | HUGO基因符号 |
Gene | Ensembl stable ID of the affected gene | 整合受影响基因的稳定ID |
Feature_type | Type of feature. Currently one of Transcript, RegulatoryFeature, MotifFeature. | 功能类型。目前是文字记录,监管功能,MotifFeature之一。 |
Feature | Ensembl stable ID of the feature | 整合功能的稳定ID |
BIOTYPE | The type of transcript or regulatory feature (e.g. protein_coding) | 转录本或调控功能的类型(例如,protein_coding) |
EXON | Exon number (out of total exons) | 外显子数(外显子总数) |
INTRON | Intron number (out of total introns) | 内含子数量(在所有内含子中) |
HGVSc | The HGVS coding sequence name | HGVS编码序列名称 |
HGVSp | The HGVS protein sequence name | HGVS蛋白序列名称 |
cDNA_position | Relative position of base pair in cDNA sequence | 碱基对在cDNA序列中的相对位置 |
CDS_position | Relative position of base pair in coding sequence | 碱基对在编码序列中的相对位置 |
Protein_position | Relative position of the affected amino acid in protein | 蛋白质中受影响氨基酸的相对位置 |
Amino_acids | Change in amino acids (only given if the variant affects the protein-coding sequence) | 氨基酸变化(仅在变体影响蛋白质编码序列时给出) |
Codon | The affected codons with the variant base in upper case | 带有大写变体碱基的受影响密码子 |
Existing_variation | Known identifier of existing variant; usually a dbSNP rs number if applicable | 现有变体的已知标识符;如果适用,通常是一个dbSNP rs号 |
ALLELE_NUM | Allele number from input; 0 is reference, 1 is first alternate, etc. | 输入的等位基因编号;0是参考,1是第一个替代,依此类推。 |
DISTANCE | Shortest distance from variant to transcript | 变体到转录本的最短距离 |
STRAND | The DNA strand (1 or -1) on which the transcript/feature lies | 转录本/特征所在的DNA链(1或-1) |
FLAGS | Transcript quality flags | 成绩单质量标志 |
VARIANT_CLASS | Sequence Ontology variant class | 序列本体变体类 |
SYMBOL_SOURCE | The source of the gene symbol | 基因符号的来源 |
HGNC_ID | HGNC gene ID | HGNC基因ID |
CANONICAL | A flag indicating if the transcript is denoted as the canonical transcript for this gene | 一个标志,指示该转录本是否被表示为该基因的规范转录本 |
TSL | Transcript support level | 笔录支持级别 |
APPRIS | APPRIS isoform annotation | APPRIS同种型注释 |
CCDS | The CCDS identifer for this transcript, where applicable | 适用于此笔录的CCDS标识符 |
ENSP | The Ensembl protein identifier of the affected transcript | 受影响的转录本的Ensembl蛋白质标识符 |
SWISSPROT | UniProtKB/Swiss-Prot identifier of protein product | 蛋白产品的UniProtKB / Swiss-Prot标识符 |
TREMBL | UniProtKB/TrEMBL identifier of protein product | 蛋白质产品的UniProtKB / TrEMBL标识符 |
UNIPARC | UniParc identifier of protein product | 蛋白质产品的UniParc标识符 |
RefSeq | RefSeq gene ID | RefSeq基因ID |
GENE_PHENO | Indicates if the gene is associated with a phenotype, disease or trait | 指示基因是否与表型,疾病或性状相关 |
SIFT | The SIFT prediction and/or score, with both given as prediction (score) | SIFT预测和/或分数,两者均作为预测(分数) |
PolyPhen | The PolyPhen prediction and/or score | PolyPhen预测和/或分数 |
DOMAINS | The source and identifier of any overlapping protein domains | 任何重叠蛋白质结构域的来源和标识符 |
HGVS_OFFSET | Indicates by how many bases the HGVS notations for this variant have been shifted | 表示此变体的HGVS表示法已移动多少个碱基 |
GMAF | Non-reference allele and frequency of existing variant in 1000 Genomes | 1000个基因组中现有基因的非参考等位基因和频率 |
AFR_MAF | Non-reference allele and frequency of existing variant in 1000 Genomes combined African population | 非洲人口总数1000个基因组中非参考等位基因和现有变异的频率 |
AMR_MAF | Non-reference allele and frequency of existing variant in 1000 Genomes combined American population | 1000个基因组合并的美国人群中非参考等位基因和现有变异的频率 |
EAS_MAF | Non-reference allele and frequency of existing variant in 1000 Genomes combined East Asian population | 1000个基因组合并的东亚人群的非参考等位基因和现有变异的频率 |
EUR_MAF | Non-reference allele and frequency of existing variant in 1000 Genomes combined European population | 欧洲人群中1000个基因组中非参考等位基因和现有变异的频率 |
SAS_MAF | Non-reference allele and frequency of existing variant in 1000 Genomes combined South Asian population | 1000个基因组合并的南亚人群的非参考等位基因和现有变异的频率 |
AA_MAF | Non-reference allele and frequency of existing variant in NHLBI-ESP African American population | NHLBI-ESP非裔美国人人群中非参考等位基因和现有变异的频率 |
EA_MAF | Non-reference allele and frequency of existing variant in NHLBI-ESP European American population | NHLBI-ESP欧美人群中非参考等位基因和现有变异的频率 |
ExAC_MAF | Frequency of existing variant in ExAC combined population | ExAC合并人群中现有变体的频率 |
ExAC_Adj_MAF | Adjusted frequency of existing variant in ExAC combined population | ExAC合并人群中现有变体的调整频率 |
ExAC_AFR_MAF | Frequency of existing variant in ExAC African/American population | ExAC非洲/美国人口中现有变体的频率 |
ExAC_AMR_MAF | Frequency of existing variant in ExAC American population | ExAC美国人口中现有变体的频率 |
ExAC_EAS_MAF | Frequency of existing variant in ExAC East Asian population | ExAC东亚人口中现有变体的频率 |
ExAC_FIN_MAF | Frequency of existing variant in ExAC Finnish population | ExAC芬兰人口中现有变体的频率 |
ExAC_NFE_MAF | Frequency of existing variant in ExAC Non-Finnish European population | ExAC非芬兰欧洲人口中现有变体的频率 |
ExAC_OTH_MAF | Frequency of existing variant in ExAC combined other combined populations | ExAC中现有变体的出现频率加上其他合并人群 |
ExAC_SAS_MAF | Frequency of existing variant in ExAC South Asian population | ExAC南亚人口中现有变体的频率 |
CLIN_SIG | Clinical significance of variant from dbSNP | dbSNP变异体的临床意义 |
SOMATIC | Somatic status of existing variant(s) | 现有变体的体细胞状态 |
PHENO | Indicates if existing variant is associated with a phenotype, disease or trait | 指示现有变体是否与表型,疾病或性状相关 |
PUBMED | Pubmed ID(s) of publications that cite existing variant | 引用现有变体的出版物的公开ID |
MOTIF_NAME | The source and identifier of a transcription factor binding profile aligned at this position | 在此位置对齐的转录因子结合图谱的来源和标识符 |
MOTIF_POS | The relative position of the variation in the aligned TFBP | 对齐的TFBP中变化的相对位置 |
HIGH_INF_POS | A flag indicating if the variant falls in a high information position of a transcription factor binding profile (TFBP) | 指示变体是否落在转录因子结合图谱(TFBP)的较高信息位置的标记 |
MOTIF_SCORE_CHANGE | The difference in motif score of the reference and variant sequences for the TFBP | TFBP参考序列和变异序列的基序得分差异 |
ENTREZ | Entrez ID | 输入ID |
EVIDENCE | Evidence that the variant exists | 该变体存在的证据 |
==待续==