SpatialQC:空间转录组质控报告自动化工具解析

[前言]

在当今的生命科学研究中,空间转录组学作为一种前沿技术,能够在空间维度上揭示基因表达的复杂图谱,已经成为揭示生物体内细胞异质性的重要手段。随着空间转录组技术的飞速发展,我们能够在亚细胞分辨率和大视野下研究基因的空间表达分布。然而,尽管新技术为科研带来了巨大的潜力,但同时也伴随着重大挑战,尤其是在测序深度和大样本测序质量方面的不均匀性。因此,对数据进行系统的质量评估和过滤,成为了确保空间转录组数据可靠分析的第一步。

为了解决空间转录组数据分析流程中缺乏一站式质控工具的问题,东南大学的研究团队开发了SpatialQC。这款自动化质控工具不仅填补了这一空白,还显著提升了数据质量并简化了分析流程。SpatialQC从切片、细胞和基因三个维度对空间转录组数据进行全面的自动化质控。它能够直接生成用于下游分析的过滤数据,并提供交互式质控报告,便于用户探索和检查数据质量。无论是基于高通量测序的空间转录组数据如Visium和Stereo-seq,还是基于成像的空间转录组数据如MERFISH和Xenium,SpatialQC的设计都能广泛适用。

今天小编就带大家一起看看SpatialQC这款自动化质控工具是如何完成一站式质控的吧!我们将详细介绍SpatialQC的操作步骤,对生成的报告内容进行全面解读。Let’s go!

[SpatialQC安装]

SpatialQC比较简单,只需运行以下代码即可:

pipinstall SpatialQC

安装成功后,运行SpatialQC -h,得到SpatialQC的帮助信息:

[root@localhost~]# SpatialQC -h

usage:SpatialQC [-h] [--adata] [--markers] [--species] [--tissue_class][--tissue_type]

                 [--cancer_type][--slice_number] [--slice] [--mito] [--doublet]

                 [--mito_percent] [--ribo][--hemo] [--bin_value]

                 [--min_genes_list  [...]] [--min_genes_list2  [...]]

                 [--min_cells_list  [...]] [--f] [--s] [--min_genes] [--n][--min_cells]

                 [--l] [--s1 ] [--s2  ] [--s3   ] [--s4      ] [--s5      ] [--s6      ]

                 [--s7 ] [--s8    ] [--output] [--o1] [--o2] [--j]

[SpatialQC使用]

      在使用SpatialQC之前,我们需要准备输入文件:.h5ad file。以10X空间转录组的数据为例:

└──Sample_1

    ├──filtered_feature_bc_matrix.h5

    └──spatial

        ├──aligned_fiducials.jpg

        ├──aligned_tissue_image.jpg

        ├──cytassist_image.tiff

        ├──detected_tissue_image.jpg

        ├──scalefactors_json.json

        ├──spatial_enrichment.csv

        ├──tissue_hires_image.png

        ├──tissue_lowres_image.png

        ├──tissue_positions.csv

        └──tissue_positions_list.csv

2 directories,11 files

      运行python:

import scanpyas sc

#单样本

s1=sc.read_visium(path="./Sample_1/",count_file='filtered_feature_bc_matrix.h5',library_id="Sample_1",load_images=True,source_image_path="./Sample_1/spatial/")

s1.obs['slice']

= "Sample_1" # slice在SpatialQC运行参数中会用到

s1.write_h5ad('Sample_1.h5ad')

#也可一次性导入多个样本

samples =['Sample_1', 'Sample_2', 'Sample_3']

adata_list =[]

for i, samplein enumerate(samples, start=1):

    cdata =sc.read_visium(path=sample,count_file='filtered_feature_bc_matrix.h5',library_id=sample,load_images=True,source_image_path=f"{sample}/spatial/")

    cdata.obs['slice'] = f's{i}'

    cdata.var_names_make_unique()

    adata_list.append(cdata)

adata =sc.concat(adata_list, join='outer')

adata.var_names_make_unique()

adata.obs =adata.obs[['slice']]

adata.write('ST.h5ad')

      除此之外,SpatialQC还要求提供marker genes的 .csv file。如果没有.csv file,则需要提供样本的物种(--species)、组织分类(--tissue_class)、组织类型(--tissue_type)。组织分类和组织类型与CellMarker上的分类标准一致。

      准备好后,即可运行SpatialQC:

SpatialQC--adata ST.h5ad --markers gene.csv --doublet False --slice slice --mito 'MT-'--ribo 'RPS, RPL' --hemo 'HBB, HBA'

图1. SpatialQC工作流程

[SpatialQC解读]

      SpatialQC会生成一个名为“report.html”的自动化报告,和过滤后的“filtered.h5ad”。

      SpatialQC通过3个步骤执行数据过滤:切片、细胞和基因级过滤。

步骤1: 切片级过滤(Slice-level)。对于空间转录组学数据,特别是3D数据,样本被单独切片和测序,导致不同切片的数据质量差异较大。如果在切片评分模块中,某块切片的中位数分数小于5(阈值可调),SpatialQC则视该切片为无效切片并删除。

步骤2 :细胞级过滤(Cell-level)。SpatialQC使用参数min_genes过滤细胞。此外,SpatialQC会移除被鉴定为双胞(不建议空转数据使用双胞过滤)和线粒体比率超过10%的细胞(阈值可调)。

步骤3: 基因级过滤(Gene-level)。SpatialQC选择在超过最小数量的细胞(min_cells)中检测到的基因。对于预定义的marker基因集,建议选择min_cells的值,以便保留>99%(阈值可调)的marker基因。

以下是过滤参数设置,此处我们使用了默认值:

Filter relatedparameters:

  --mito_percent        Filter cells with mitochondrialproportion higher than mito_percent.

                        default: 0.1

  --f                   Whether to filter adata.

                        default: True

  --s                   Sections with a median scoreless than s will be removed.

                        default: 5

  --min_genes           Provide your min_genes, otherwisedetermined by --n.

                        default: None

  --n                   Determine the value ofmin_genes to ensure that the valid cell ratio is greater than n.

                        default: 0.7

  --min_cells           Provide your min_cells, otherwisedetermined by --l.

                        default: None

  --l                   After filtering cells,determine the value of min_cells to ensure that the proportion of marker genesis greater than l among the remaining detected markers.

                        default: 0.99

下图是SpatialQC生成的自动化质控报告。在这个界面中,用户可以看到与空间转录组数据质量相关的基本统计信息。报告列出了切片数量、细胞数量、基因数量、每个细胞的基因和UMI的中位数与平均值等关键指标。此外,还包括线粒体、核糖体和血红蛋白等计数、检测到的marker数量及其检测比率等信息。用户可以通过这些指标来全面了解数据的质量,并进行深入的分析。

图2. report.html自动化质控报告界面

      首先,SpatialQC对每个slice进行了评分,对每个合格的切片,SpatialQC在空间spots坐标上绘制了不同指标的分布情况。

图3.Slice评分


图4. 空间特征分布

随后,SpatialQC绘制了n_counts、n_genes、Log10GenesPerUMI、线粒体、核糖体、血红蛋白、marker基因的密度图、箱线图和条形图,展示了各个指标的分布情况。

图5. n_counts密度图和箱线图

      最后,SpatialQC评估了不同min_genes下,有效细胞、marker基因的占比情况。

图6. Cell数目随min_genes增加而减少

[总结]

综上所述,SpatialQC是一款用户友好的工具,能够快速评估空间转录组数据的质量,并生成过滤后的数据。它通过一键式操作,自动生成详细的质控报告,并以交互式HTML格式呈现。报告不仅汇总了关键的统计数据,还提供了每个切片的详细信息和图表,方便研究人员深入探索数据的质量。此外,SpatialQC的报告功能还能帮助研究人员在进行进一步测序和数据分析前,识别潜在的问题,从而确保后续研究的可靠性和准确性。这款工具无疑在简化质控流程、提升数据处理效率方面起到了重要作用。

如果你正分析空间转录组学,或者对数据质控有需求,不妨试试看SpatialQC这款强大的工具。它将为你的研究提供更高效、更准确的质控解决方案,帮助你轻松应对数据分析中的各种挑战。欢迎大家关注,获取更多科研工具的推荐和使用指南。大家如果还有什么想要了解的生信小知识,可以在下方留言互动哦,我们将持续为大家分享更多实用的科研干货,助力你的科研之路!

微生信助力高分文章,用户320000+,谷歌学术7100+

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成,浏览时请结合常识与多方信息审慎甄别。
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

相关阅读更多精彩内容

友情链接更多精彩内容