微卫星 (Microsatellite) 通常由1-6个碱基为重复单元串联重复很多次形成,其位点遍布于基因组。在 DNA 复制负责错配修复 (MMR) 基因的功能存在缺陷时,会导致串联序列发生插入和缺失突变,引起微卫星序列长度发生波动,即MSI (Microsatellite Instability)。伴随着DNA错配修复缺陷的MSI现象是临床上的一项重要的肿瘤标志物,作为一种分子标志物,高MSI现象常见于结肠癌、小肠癌、胃癌、子宫内膜癌、卵巢癌等肿瘤类型。
虽然目前公认的MSI检测金标准是PCR+毛细管电泳法,但随着分子生物学的发展和测序成本的降低,以NGS为基础的检测方法也已经成为肿瘤诊疗领域非常重要的一项技术。与金标准方法相比而言,NGS方法具有较高的敏感性和特异性,并且拥有高通量的特点。
目前分析MSI的软件有不少,分析的时候如何选择便是第一个问题。好在有人做了一些软件的测评,免去了咱们做选择的困难,可以基于测评结果来做决定。感情兴趣的可以阅读文章《Performance assessment of computational tools to detect microsatellite instability》。以下是文章测评的所有软件:
下面的热图是所有软件在各种数据类型上的评分表现,可以看出MSIsensor2软件综合表现最佳:
运行速度也是软件考量的因素,毕竟早点得到结果不是更香嘛:
分析WGS时,运行内存使用量最小的是MANTIS,MSIsensor2表现也不错:
通过以上这些数据作为参考,软件的表现已然知晓,该如何做选择想必大家心里也已经有了答案。这里记录一下MSIsensor2
的用法。
首次使用需要建立微卫星库:
msisensor2 scan -d reference.fa -o microsatellites.list
在建立微卫星库文件里面会看到repeat_unit_binar、left_flank_binary、right_flank_binary这样的列名,其实是序列的二进制编码表示方式,如:A:00; C:01; G:10; T:11,TCGA=11011000,二进制数11011000转换为十进制数是216,也就是说TCGA
字符串的binary
值为216。
微卫星库建好,接着就可以分析数据了:
# normal and tumor pair
msisensor2 msi -d microsatellites.list -n normal.bam -t tumor.bam -o output.prefix
# tumor only
msisensor2 msi -M models_hg38 -t tumor.bam -o output.prefix
结果文件:
output.prefix
output.prefix_dis
output.prefix_germline # tumor only 没有此文件
output.prefix_somatic
- output.prefix: MSI score
Total_Number_of_Sites Number_of_Somatic_Sites %
640 75 11.72
- output.prefix_dis: 各长度下的read count分布 (N: normal; T: tumor)
chr1 16248728 ACCTC 11[T] AAAGG
N 0 0 0 0 1 38 0 0 0 0 0 0 0
T 0 0 0 0 17 22 1 0 0 0 0 0 0
- output.prefix_germline: germline的MSI结果
chromosome location left_flank repeat_times repeat_unit_bases right_flank genotype
1 1192105 AATAC 11 A TTAGC 5|5
1 1330899 CTGCC 5 AG CACAG 5|5
1 1598690 AATAC 12 A TTAGC 5|5
1 1605407 AAAAG 14 A GAAAA 1|1
1 2118724 TTTTC 11 T CTTTT 1|1
- output.prefix_somatic: somatic的MSI结果
chromosome location left_flank repeat_times repeat_unit_bases right_flank difference P_value FDR rank
1 16200729 TAAGA 10 T CTTGT 0.55652 2.8973e-15 1.8542e-12 1
1 75614380 TTTAC 14 T AAGGT 0.82764 5.1515e-15 1.6485e-12 2
1 70654981 CCAGG 21 A GATGA 0.80556 1e-14 2.1333e-12 3
1 65138787 GTTTG 13 A CAGCT 0.8653 1e-14 1.6e-12 4
1 35885046 TTCTC 11 T CCCCT 0.84682 1e-14 1.28e-12 5
difference:表示Normal和Tumor样本reads分布差异。
tumor only模式下该文件的结果:
chromosome location left_flank repeat_times repeat_unit_bases right_flank discrimination_value_ML
chr22 29286892 AAAGC 12 T CTCTT 0.98852
根据MSI score如何判断样本的情况,可以参考如下标准:
- MSI_H: msiscore >= 10%
- MSI_L: 3.5% =< msiscore < 10%
- MSS: msiscore < 3.5%