2025-05-28

BED文件格式解释
BED（Browser Extensible Data）格式是一种用于存储基因组区域的坐标和相关注释的文本文件格式。它采用列的形式，以空格或制表符分隔数据。这个格式最初在人类基因组计划中开发，后来被其他测序项目广泛采用，成为生物信息学中的实际标准。

与存储核苷酸序列相比，BED格式的优势之一是使用坐标，从而在比较整个或部分基因组时有着更高的效率。其简单性使得通过文字处理、脚本语言（如Python、Ruby或Perl）或专业工具（如bedtools）轻松操作、读取或解析坐标和注释。

历史

在20世纪末，第一个完整的基因组测序项目出现了。其中，人类基因组计划是当时最引人注目的项目，旨在首次测序数十亿碱基的基因组。这推动了测序中心进行了重大的方法学发展，以实现对序列的自动化处理和分析。在这个过程中，许多不同的格式被创建，包括FASTQ、GFF和BED。然而，当21世纪初更多的测序项目涌现时，并没有针对这些格式发布正式的规范。

即使在最初没有正式规范的情况下，BED格式由于在基因组浏览器中的广泛使用，逐渐形成了相对稳定的定义。最初，BED格式没有明确定义的规范，而是广泛使用UCSC基因组浏览器提供的描述作为参考。

直到2021年，在全球基因组与健康联盟的支持下，BED格式才正式发布了规范，为其提供了明确的定义和标准。

格式

BED文件由至少三列组成，可以添加九列可选列，总共为十二列。前三列包含染色体的名称，序列的起始和结束坐标。

[图片上传失败...(image-75235c-1748413477037)]

必需列

chrom - 染色体或支架的名称。可以使用任何有效的seq_region_name，染色体名称可以带有或不带有'chr'前缀。
chromStart - 特征在标准染色体坐标中的起始位置（即第一个碱基为0）。
chromEnd - 特征在标准染色体坐标中的结束位置。

*在标准文件格式中，基因组坐标可以以下图所示的两种不同的方式表示：

[图片上传失败...(image-17d950-1748413477037)]

顶部显示的是基于0的方法，由于大多数的编程语言都是从0开始计数的，因而这种方法被程序员广泛使用。底部显示的是基于1的方法，这更直观，通常是生物学家首选的。

可选列

接下来的九列包含与这些序列相关的注释。

name - 在“配置此页面”中打开时显示在特征下方的标签。
score - 介于0和1000之间的分数。
strand - 定义为+（正向）或-（反向）。
thickStart - 以实心矩形方式开始绘制特征的坐标。
thickEnd - 以实心矩形方式停止绘制特征的坐标。
itemRgb - RGB颜色值（例如0,0,255）。
blockCount - 特征内的子元素（例如外显子）的数量。
blockSizes - 这些子元素的大小。
blockStarts - 每个子元素的起始坐标。

[图片上传失败...(image-35fcbe-1748413477037)]

轨迹行（Track lines）

在BED文件中，轨迹行可用于进一步配置显示，例如通过将特征分组到单独的轨迹中。轨迹行应放置在它们要影响的特征列表的开头。

轨迹行由单词'track'后跟空格分隔的键值对组成，Ensembl使用的有效参数有：

name - 解析文件时用于标识此轨迹的唯一名称。
description - 在Region in Detail下显示轨迹的标签。
priority - 定义如果定义了多个轨迹，则按照哪个顺序显示的整数。
color - 作为RGB、hex或X11命名颜色。
useScore - 将其设置为1以根据分数列中的值以灰度渲染轨迹。
itemRgb - 如果设置为'on'（不区分大小写），则将使用轨迹中定义的单个RGB值。

[图片上传失败...(image-1d458e-1748413477037)]

发布于 2024-02-08 17:31・中国香港

2025-05-28

2025-05-28

历史

格式

推荐阅读更多精彩内容

友情链接更多精彩内容