telomere length and content estimating

端粒是位于染色体末端的DNA的非编码重复序列,就像安全帽一样,保护着基因组。在人体细胞中,其初始长度为8-15kb,每复制一次,其长度便会减少50-200bp。当端粒长度达到临界长度后,会导致复制性衰老和细胞衰亡,也就是说端粒长度决定了细胞分裂的次数,控制着细胞衰老和死亡的过程,进而影响着个体的寿命长短。因此,端粒长度对健康与疾病有非常重要的影响。目前有不少软件基于WGS数据可以分析样本的平均端粒长度及含量,这里列举一二。

telseq

简单来说,软件假定包含k个 (默认为7) TTAGGG/CCCTAA 重复的reads为来自端粒的reads,然后根据下面的公式计算端粒长度:
l =t_kSC_g

l即为端粒长度的估算值;t_k为阈值k条件下端粒reads的丰度;S为GC含量在48-52%的reads数;C_g为参考基因组中具有相同GC组成的区域的累积长度,由此可知当基因组不变时,该参数为一个常数。

telseq -r 150 -u -o sample_telseq.txt sample1.bam sample2.bam

软件用法很简单,这里就不详细介绍了。不过,有一点还是需要注意的,该软件考虑的read group信息,如果一个样本里的reads分为多个read group,则默认每个read group会单独生成一个估计值,可以使用-u参数忽略。read group可以用来捕获测序平台的技术特征,由此可以矫正这些因素带来的偏差,更多信息可以参考:https://gatk.broadinstitute.org/hc/en-us/articles/360035890671-Read-groups

输出的结果包含以下这些列:

  • ReadGroup/Library/Sample:BAM头内容中的RG tag信息/文库ID/样本。
  • Total/Mapped/Duplicates:当前ReadGroup的全部reads数/比对上基因组的reads数/重复的reads数。
  • LENGH_ESTIMATE:telseq估计的端粒长度。
  • TEL0-TEL16:包含0-16个TTAGGG/CCCTAA重复序列的reads总数。
  • GC1-GCn:GC含量在(40% + n * 2%) - (42% + (n + 1) * 2%)之间的reads数。
  • GC9:GC含量在58%-60%之间的reads数

telomerehunter

在人类基因组中,端粒DNA 主要由非编码 t 型 (TTAGGG) 重复序列组成。然而,也存在 c 型 (TCAGGG)、g型 (TGAGGG) 和 j型 (TTGGGG) 端粒变体重复序列 (TVR) 以及其他六聚体序列的变体。

telomerehunter是一个主要用于从WGS测序数据中评估端粒含量和组成的工具。该软件被设计用于肿瘤和匹配对照样本的bam文件作为输入。软件从输入样本中提取并排序端粒reads,在评估端粒含量时,考虑了GC含量偏差。并且,软件结果以多个图表形式进行可视化呈现。如果不考虑肿瘤组织,只需要输入单个bam文件也可以计算端粒含量。

telomerehunter提取包含较高端粒重复序列的reads后,根据比对信息对选定的reads进一步的细分为intrachromosomal、subtelomeric、junction spanning、intratelomeric四种类别,据此估计端粒含量和组成。其实,telomere content 即为每百万reads中intratelomeric reads的比例,具体的计算公式如下。

  • 未矫正的端粒含量:
    telomere\ content = intratelomeric\ reads * 10^6 / all\ reads

  • GC比例矫正的端粒含量:
    telomere\ content = intratelomeric\ reads * 10^6 / reads\ with\ GC\ 48-52\%

telomerehunter -ibt tumor.bam -ibc control.bam -d -p sample -o sample

单样本模式结果文件:

配对模式结果文件:

重要的结果存储在*_summary.tsv文件里面,其中tel_content即为估计的端粒含量。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容