MSI分析工具如何选择,最好的原来是它

微卫星 (Microsatellite) 通常由1-6个碱基为重复单元串联重复很多次形成,其位点遍布于基因组。在 DNA 复制负责错配修复 (MMR) 基因的功能存在缺陷时,会导致串联序列发生插入和缺失突变,引起微卫星序列长度发生波动,即MSI (Microsatellite Instability)。伴随着DNA错配修复缺陷的MSI现象是临床上的一项重要的肿瘤标志物,作为一种分子标志物,高MSI现象常见于结肠癌、小肠癌、胃癌、子宫内膜癌、卵巢癌等肿瘤类型。

虽然目前公认的MSI检测金标准是PCR+毛细管电泳法,但随着分子生物学的发展和测序成本的降低,以NGS为基础的检测方法也已经成为肿瘤诊疗领域非常重要的一项技术。与金标准方法相比而言,NGS方法具有较高的敏感性和特异性,并且拥有高通量的特点。

目前分析MSI的软件有不少,分析的时候如何选择便是第一个问题。好在有人做了一些软件的测评,免去了咱们做选择的困难,可以基于测评结果来做决定。感情兴趣的可以阅读文章《Performance assessment of computational tools to detect microsatellite instability》。以下是文章测评的所有软件:

下面的热图是所有软件在各种数据类型上的评分表现,可以看出MSIsensor2软件综合表现最佳:

运行速度也是软件考量的因素,毕竟早点得到结果不是更香嘛:

分析WGS时,运行内存使用量最小的是MANTIS,MSIsensor2表现也不错:

通过以上这些数据作为参考,软件的表现已然知晓,该如何做选择想必大家心里也已经有了答案。这里记录一下MSIsensor2的用法。

首次使用需要建立微卫星库:

msisensor2 scan -d reference.fa -o microsatellites.list

在建立微卫星库文件里面会看到repeat_unit_binar、left_flank_binary、right_flank_binary这样的列名,其实是序列的二进制编码表示方式,如:A:00; C:01; G:10; T:11,TCGA=11011000,二进制数11011000转换为十进制数是216,也就是说TCGA字符串的binary值为216。

微卫星库建好,接着就可以分析数据了:

# normal and tumor pair
msisensor2 msi -d microsatellites.list -n normal.bam -t tumor.bam -o output.prefix

# tumor only
msisensor2 msi -M models_hg38 -t tumor.bam -o output.prefix

结果文件:

output.prefix
output.prefix_dis
output.prefix_germline # tumor only 没有此文件
output.prefix_somatic
  1. output.prefix: MSI score
 Total_Number_of_Sites   Number_of_Somatic_Sites %
 640     75      11.72
  1. output.prefix_dis: 各长度下的read count分布 (N: normal; T: tumor)
chr1 16248728 ACCTC 11[T] AAAGG
N       0       0       0       0       1       38      0       0       0       0       0       0       0
T       0       0       0       0       17      22      1       0       0       0       0       0       0
  1. output.prefix_germline: germline的MSI结果
 chromosome   location        left_flank     repeat_times    repeat_unit_bases    right_flank      genotype
 1       1192105 AATAC   11      A       TTAGC   5|5
 1       1330899 CTGCC   5       AG      CACAG   5|5
 1       1598690 AATAC   12      A       TTAGC   5|5
 1       1605407 AAAAG   14      A       GAAAA   1|1
 1       2118724 TTTTC   11      T       CTTTT   1|1
  1. output.prefix_somatic: somatic的MSI结果
 chromosome   location        left_flank     repeat_times    repeat_unit_bases    right_flank      difference      P_value    FDR     rank
 1       16200729        TAAGA   10      T       CTTGT   0.55652 2.8973e-15      1.8542e-12      1
 1       75614380        TTTAC   14      T       AAGGT   0.82764 5.1515e-15      1.6485e-12      2
 1       70654981        CCAGG   21      A       GATGA   0.80556 1e-14   2.1333e-12      3
 1       65138787        GTTTG   13      A       CAGCT   0.8653  1e-14   1.6e-12 4
 1       35885046        TTCTC   11      T       CCCCT   0.84682 1e-14   1.28e-12        5

difference:表示Normal和Tumor样本reads分布差异。
tumor only模式下该文件的结果:

 chromosome   location        left_flank     repeat_times    repeat_unit_bases    right_flank    discrimination_value_ML
 chr22  29286892    AAAGC   12  T   CTCTT   0.98852

根据MSI score如何判断样本的情况,可以参考如下标准:

  • MSI_H: msiscore >= 10%
  • MSI_L: 3.5% =< msiscore < 10%
  • MSS: msiscore < 3.5%
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容