1. Introduction
传统的基于RNA测序的块状组织分析受到其产生的平均基因表达图的限制(Wang 2009)。因此,单细胞转录学近年来变得流行起来,可以研究组成组织的单个细胞的异质性(Wills,2013)。对单个细胞的分析可以给出样本中多样性和复杂性更详细的视图,但其本身受到整个组织数据缺乏空间分辨率的限制。为了充分受益于所获得的信息,理想情况下应该知道转录本在组织中的位置(Crosetto 2015)。一项新的技术,空间转录学(Stóhl,and Salmén 2016),能够在保持空间分辨率的情况下,在形态完整的组织切片中研究转录组。空间转录组学使用排列在显微镜玻璃表面上的空间条形码cDNA引物来捕捉组织切片中不同空间位置的基因表达数据,所有这些数据都是在同一反应中进行的。获得的测序数据是独一无二的,因为每个样本都包含几个空间条形码,每个空间条形码与数万个独特的分子识别符(UMI)相连(Islam,2014)。这就需要开发新的工具和算法来处理和解复用数据,这样产生的空间分辨的基因表达数据就可以在组织中定位到它的原始位置,从而产生我们所说的空间转录数据集。在这里,我们介绍了一个开源工具,空间转录(ST)管道(the spatial transcriptomics (ST) Pipeline),它允许高效和自动生成空间转录数据集。
2. Methods
未经处理的空间转录学数据由高分辨率组织图像和成对末端测序数据(STóhl and Salmén 2016)组成,后者既包含基因表达信息,也包含允许将基因表达投影到组织图像上的空间信息。ST管道使用反向读取(R2)中存在的转录本信息和正向读取(R1)中存在的空间信息与UMIs一起生成计数矩阵,其中基因被表示为列,空间条形码被表示为行,然后每个矩阵单元表示给定基因在给定点的表达水平。基因表达水平被计算为映射和注释到给定空间位置中的特定基因位点的唯一UMI的总和。ST管道使用基于命令行的界面,允许用户高效、自动地执行获得参考计数矩阵所需的所有必要步骤。
3. Main workflow
ST管道的工作流程(Figure 1)从质量过滤步骤开始。这里,均聚物延伸(默认设置长为15bp)从R2中去除。R1中UMI质量较低或R2中AT或GC含量较高(默认设置为90%以上)的读取对将被丢弃。最后,执行与BWA(Heng 2009)中使用的方法类似的滑动窗口方法,以去除R2 3'端的低质量碱基(默认设置的Phred分数为20)。如果质量修剪后R2的长度低于30bp(默认设置),则丢弃读取对。在质量筛选步骤之后,将R2与STAR(Dobin 2014)的基因组比对到感兴趣的参考基因组。
ST管道还允许用户通过使用STAR将R2与污染基因组(通常为非编码RNA序列)进行比对,并将未比对的读数保留用于基因组比对步骤,从而选择性地去除污染物读数。
与基因组比对步骤并行,使用R1执行空间多路分解步骤。这里,将每个读取器的空间条形码与表面探针中包含的空间条形码(用于从组织样本捕获RNA)进行匹配。这提供了起源每个R1和R2读出对的cDNA的空间位置。为了执行条形码解复用,我们开发了一个Python工具(https://github.com/SpatialTranscriptomicsResearch/taggd),它使用了(Costea2013)中描述的基于KMER的方法。
映射(mapping)和解复用(de-multiplexing)后,丢弃R1中空间条形码不匹配的读取对。对于剩余的对,来自R1的空间条形码和UMI被添加到R2作为额外的SAM标签(LI 2009)。
产生的R2读数使用定制版本的HTSeq-Count(Anders 2014)进行注释,以便为每个读数分配一个基因位点。注释失败的读取将被丢弃。然后对成功注释的读物进行处理,以去除在文库制备中扩增过程中产生的重复。这是通过空间条形码、基因位点(精确的基因组坐标,默认设置下最小窗口偏移量为150bp)和链将所有UMI聚在一起来实现的。这允许考虑到扩增过程中可能产生的伪影来解释替代的终止位点(Gautheret,1998)。使用汉明距离(1个不匹配的默认设置)对UMI进行聚类,并且每个聚类被算作一个唯一的分子。最后,所有独特的分子通过空间条形码和基因位点进行分组,以生成具有计数的矩阵,然后该矩阵可用于下游分析。
整个pipeline还是比较清晰且有点复杂的,但是我们看到最后的那个矩阵图就恍然大悟了。其实就是把之前我们熟悉的单细胞的cell-gene矩阵转化为xy-gene的矩阵,这里的xy是cell的坐标。
4. Implementation
ST管道是使用Python2.7开发的,遵循符合最佳实践编码标准的干净、模块化和健壮的设计。公共Github资源库和示例数据集中提供了有关如何安装和运行ST Pipeline的说明。Github页面上还提供了详细的手册,其中描述了工作流程和不同的参数。ST管道具有多种参数设置,可高度自定义,所有选项都在集成帮助部分进行了说明。它被设计为作为一个基于命令行的程序运行,具有用户友好的界面,允许非专家用户快速熟悉。ST流水线已针对内存使用和运行时间。它允许在处理期间保留被丢弃的文件和中间文件,并且它还生成每个步骤的统计数据和详细信息,这有助于确定数据集。生成空间转录数据集的另一种方法是将未处理的数据分割成几个文件,分别处理它们,最后将它们合并以生成唯一计数矩阵。我们相信,这里介绍的方法更健壮、更高效,并且更适合密度更高的阵列。
5. Conclusions
近年来,我们目睹了能够产生高通量生物数据的技术方法不断增加。通常情况下,需要对数据进行处理、缩减并转换为适当的格式,而这一过程通常需要几个步骤。因此,重要的是要构建健壮、有文档记录、高效和用户友好的工具,这些工具最终允许广泛的用户执行数据处理。ST管道是一种新的工具,可以对空间分辨的RNA-SEQ数据进行多路分解,并对独特分子进行可靠的高质量过滤和识别。虽然,ST管道是为处理空间转录数据集而设计的,但它也能被用于处理单细胞RNA-Seq数据(Vickovic 2016),只要对单细胞进行条形码编码并为其分配位置坐标。