端粒是位于染色体末端的DNA的非编码重复序列,就像安全帽一样,保护着基因组。在人体细胞中,其初始长度为8-15kb,每复制一次,其长度便会减少50-200bp。当端粒长度达到临界长度后,会导致复制性衰老和细胞衰亡,也就是说端粒长度决定了细胞分裂的次数,控制着细胞衰老和死亡的过程,进而影响着个体的寿命长短。因此,端粒长度对健康与疾病有非常重要的影响。目前有不少软件基于WGS数据可以分析样本的平均端粒长度及含量,这里列举一二。
telseq
简单来说,软件假定包含k个 (默认为7) TTAGGG/CCCTAA 重复的reads为来自端粒的reads,然后根据下面的公式计算端粒长度:
即为端粒长度的估算值;
为阈值k条件下端粒reads的丰度;S为GC含量在48-52%的reads数;
为参考基因组中具有相同GC组成的区域的累积长度,由此可知当基因组不变时,该参数为一个常数。
telseq -r 150 -u -o sample_telseq.txt sample1.bam sample2.bam
软件用法很简单,这里就不详细介绍了。不过,有一点还是需要注意的,该软件考虑的read group
信息,如果一个样本里的reads分为多个read group
,则默认每个read group
会单独生成一个估计值,可以使用-u
参数忽略。read group
可以用来捕获测序平台的技术特征,由此可以矫正这些因素带来的偏差,更多信息可以参考:https://gatk.broadinstitute.org/hc/en-us/articles/360035890671-Read-groups。
输出的结果包含以下这些列:
- ReadGroup/Library/Sample:BAM头内容中的RG tag信息/文库ID/样本。
- Total/Mapped/Duplicates:当前ReadGroup的全部reads数/比对上基因组的reads数/重复的reads数。
- LENGH_ESTIMATE:telseq估计的端粒长度。
- TEL0-TEL16:包含0-16个TTAGGG/CCCTAA重复序列的reads总数。
- GC1-GCn:GC含量在(40% + n * 2%) - (42% + (n + 1) * 2%)之间的reads数。
- GC9:GC含量在58%-60%之间的reads数
telomerehunter
在人类基因组中,端粒DNA 主要由非编码 t 型 (TTAGGG) 重复序列组成。然而,也存在 c 型 (TCAGGG)、g型 (TGAGGG) 和 j型 (TTGGGG) 端粒变体重复序列 (TVR) 以及其他六聚体序列的变体。
telomerehunter是一个主要用于从WGS测序数据中评估端粒含量和组成的工具。该软件被设计用于肿瘤和匹配对照样本的bam文件作为输入。软件从输入样本中提取并排序端粒reads,在评估端粒含量时,考虑了GC含量偏差。并且,软件结果以多个图表形式进行可视化呈现。如果不考虑肿瘤组织,只需要输入单个bam文件也可以计算端粒含量。
telomerehunter提取包含较高端粒重复序列的reads后,根据比对信息对选定的reads进一步的细分为intrachromosomal、subtelomeric、junction spanning、intratelomeric四种类别,据此估计端粒含量和组成。其实,telomere content 即为每百万reads中intratelomeric reads的比例,具体的计算公式如下。
未矫正的端粒含量:
GC比例矫正的端粒含量:
telomerehunter -ibt tumor.bam -ibc control.bam -d -p sample -o sample
单样本模式结果文件:
配对模式结果文件:
重要的结果存储在*_summary.tsv文件里面,其中tel_content即为估计的端粒含量。