BED文件格式解释
BED(Browser Extensible Data)格式是一种用于存储基因组区域的坐标和相关注释的文本文件格式。它采用列的形式,以空格或制表符分隔数据。这个格式最初在人类基因组计划中开发,后来被其他测序项目广泛采用,成为生物信息学中的实际标准。
与存储核苷酸序列相比,BED格式的优势之一是使用坐标,从而在比较整个或部分基因组时有着更高的效率。其简单性使得通过文字处理、脚本语言(如Python、Ruby或Perl)或专业工具(如bedtools)轻松操作、读取或解析坐标和注释。
历史
在20世纪末,第一个完整的基因组测序项目出现了。其中,人类基因组计划是当时最引人注目的项目,旨在首次测序数十亿碱基的基因组。这推动了测序中心进行了重大的方法学发展,以实现对序列的自动化处理和分析。在这个过程中,许多不同的格式被创建,包括FASTQ、GFF和BED。然而,当21世纪初更多的测序项目涌现时,并没有针对这些格式发布正式的规范。
即使在最初没有正式规范的情况下,BED格式由于在基因组浏览器中的广泛使用,逐渐形成了相对稳定的定义。最初,BED格式没有明确定义的规范,而是广泛使用UCSC基因组浏览器提供的描述作为参考。
直到2021年,在全球基因组与健康联盟的支持下,BED格式才正式发布了规范,为其提供了明确的定义和标准。
格式
BED文件由至少三列组成,可以添加九列可选列,总共为十二列。前三列包含染色体的名称,序列的起始和结束坐标。
[图片上传失败...(image-75235c-1748413477037)]
必需列
- chrom - 染色体或支架的名称。可以使用任何有效的seq_region_name,染色体名称可以带有或不带有'chr'前缀。
- chromStart - 特征在标准染色体坐标中的起始位置(即第一个碱基为0)。
- chromEnd - 特征在标准染色体坐标中的结束位置。
*在标准文件格式中,基因组坐标可以以下图所示的两种不同的方式表示:
[图片上传失败...(image-17d950-1748413477037)]
顶部显示的是基于0的方法,由于大多数的编程语言都是从0开始计数的,因而这种方法被程序员广泛使用。底部显示的是基于1的方法,这更直观,通常是生物学家首选的。
可选列
接下来的九列包含与这些序列相关的注释。
- name - 在“配置此页面”中打开时显示在特征下方的标签。
- score - 介于0和1000之间的分数。
- strand - 定义为+(正向)或-(反向)。
- thickStart - 以实心矩形方式开始绘制特征的坐标。
- thickEnd - 以实心矩形方式停止绘制特征的坐标。
- itemRgb - RGB颜色值(例如0,0,255)。
- blockCount - 特征内的子元素(例如外显子)的数量。
- blockSizes - 这些子元素的大小。
- blockStarts - 每个子元素的起始坐标。
[图片上传失败...(image-35fcbe-1748413477037)]
轨迹行(Track lines)
在BED文件中,轨迹行可用于进一步配置显示,例如通过将特征分组到单独的轨迹中。轨迹行应放置在它们要影响的特征列表的开头。
轨迹行由单词'track'后跟空格分隔的键值对组成,Ensembl使用的有效参数有:
- name - 解析文件时用于标识此轨迹的唯一名称。
- description - 在Region in Detail下显示轨迹的标签。
- priority - 定义如果定义了多个轨迹,则按照哪个顺序显示的整数。
- color - 作为RGB、hex或X11命名颜色。
- useScore - 将其设置为1以根据分数列中的值以灰度渲染轨迹。
- itemRgb - 如果设置为'on'(不区分大小写),则将使用轨迹中定义的单个RGB值。
[图片上传失败...(image-1d458e-1748413477037)]
发布于 2024-02-08 17:31・中国香港