2025-05-28

BED文件格式解释
BED(Browser Extensible Data)格式是一种用于存储基因组区域的坐标和相关注释的文本文件格式。它采用列的形式,以空格或制表符分隔数据。这个格式最初在人类基因组计划中开发,后来被其他测序项目广泛采用,成为生物信息学中的实际标准。

与存储核苷酸序列相比,BED格式的优势之一是使用坐标,从而在比较整个或部分基因组时有着更高的效率。其简单性使得通过文字处理、脚本语言(如Python、Ruby或Perl)或专业工具(如bedtools)轻松操作、读取或解析坐标和注释。

历史

在20世纪末,第一个完整的基因组测序项目出现了。其中,人类基因组计划是当时最引人注目的项目,旨在首次测序数十亿碱基的基因组。这推动了测序中心进行了重大的方法学发展,以实现对序列的自动化处理和分析。在这个过程中,许多不同的格式被创建,包括FASTQGFF和BED。然而,当21世纪初更多的测序项目涌现时,并没有针对这些格式发布正式的规范。

即使在最初没有正式规范的情况下,BED格式由于在基因组浏览器中的广泛使用,逐渐形成了相对稳定的定义。最初,BED格式没有明确定义的规范,而是广泛使用UCSC基因组浏览器提供的描述作为参考。

直到2021年,在全球基因组与健康联盟的支持下,BED格式才正式发布了规范,为其提供了明确的定义和标准。

格式

BED文件由至少三列组成,可以添加九列可选列,总共为十二列。前三列包含染色体的名称,序列的起始和结束坐标。

[图片上传失败...(image-75235c-1748413477037)]

必需列

  1. chrom - 染色体或支架的名称。可以使用任何有效的seq_region_name,染色体名称可以带有或不带有'chr'前缀。
  2. chromStart - 特征在标准染色体坐标中的起始位置(即第一个碱基为0)。
  3. chromEnd - 特征在标准染色体坐标中的结束位置。

*在标准文件格式中,基因组坐标可以以下图所示的两种不同的方式表示:

[图片上传失败...(image-17d950-1748413477037)]

顶部显示的是基于0的方法,由于大多数的编程语言都是从0开始计数的,因而这种方法被程序员广泛使用。底部显示的是基于1的方法,这更直观,通常是生物学家首选的。

可选列

接下来的九列包含与这些序列相关的注释。

  1. name - 在“配置此页面”中打开时显示在特征下方的标签。
  2. score - 介于0和1000之间的分数。
  3. strand - 定义为+(正向)或-(反向)。
  4. thickStart - 以实心矩形方式开始绘制特征的坐标。
  5. thickEnd - 以实心矩形方式停止绘制特征的坐标。
  6. itemRgb - RGB颜色值(例如0,0,255)。
  7. blockCount - 特征内的子元素(例如外显子)的数量。
  8. blockSizes - 这些子元素的大小。
  9. blockStarts - 每个子元素的起始坐标。

[图片上传失败...(image-35fcbe-1748413477037)]

轨迹行(Track lines)

在BED文件中,轨迹行可用于进一步配置显示,例如通过将特征分组到单独的轨迹中。轨迹行应放置在它们要影响的特征列表的开头。

轨迹行由单词'track'后跟空格分隔的键值对组成,Ensembl使用的有效参数有:

  • name - 解析文件时用于标识此轨迹的唯一名称。
  • description - 在Region in Detail下显示轨迹的标签。
  • priority - 定义如果定义了多个轨迹,则按照哪个顺序显示的整数。
  • color - 作为RGB、hex或X11命名颜色。
  • useScore - 将其设置为1以根据分数列中的值以灰度渲染轨迹。
  • itemRgb - 如果设置为'on'(不区分大小写),则将使用轨迹中定义的单个RGB值。

[图片上传失败...(image-1d458e-1748413477037)]

发布于 2024-02-08 17:31・中国香港

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容