velocyto
的输出文件通常是 .loom
格式的文件,包含了单细胞测序数据中 premRNA 和 mRNA 的表达信息,以及细胞的速度估计结果。
以下是 .loom
文件中主要内容的详细解释:
1. .loom
文件的结构
.loom
文件是一个 HDF5 格式的文件,存储了矩阵和元数据。它包含以下主要部分:
- 基因表达矩阵:包括 spliced(成熟mRNA) 和 unspliced(premRNA) 的表达量。
- 细胞和基因的元数据:如细胞ID、基因名称、细胞类型等。
- 速度分析结果:如 RNA 速度向量、细胞状态预测等。
2. .loom
文件中的关键内容
以下是 .loom
文件中主要数据的含义:
2.1 基因表达矩阵
-
spliced
:每个细胞中每个基因的 成熟mRNA 表达量。 -
unspliced
:每个细胞中每个基因的 premRNA 表达量。 -
ambiguous
:无法明确分类为 spliced 或 unspliced 的 reads。
这些矩阵的维度是 (基因数 x 细胞数)
,通常以稀疏矩阵的形式存储。
2.2 细胞元数据
-
obs
:细胞的元数据,例如:-
CellID
:每个细胞的唯一标识符。 -
Cluster
:细胞所属的聚类(如果有聚类分析)。 -
CellType
:细胞类型(如果有注释)。
-
-
obsm
:细胞的降维结果,例如:-
X_umap
:UMAP 降维后的坐标。 -
X_tsne
:t-SNE 降维后的坐标。
-
2.3 基因元数据
-
var
:基因的元数据,例如:-
Gene
:基因名称。 -
Accession
:基因的编号(如 Ensembl ID)。 -
Chromosome
:基因所在的染色体。
-
2.4 速度分析结果
-
velocity
:RNA 速度向量,表示每个细胞中基因表达的变化趋势。 -
velocity_u
:基于 unspliced 表达量的速度向量。 -
velocity_s
:基于 spliced 表达量的速度向量。 -
velocity_embedding
:速度向量在降维空间(如 UMAP 或 t-SNE)中的投影。 -
latent_time
:细胞的伪时间(如果有伪时间分析)。
3. 如何加载和查看 .loom
文件
你可以使用 Python 的 velocyto
或 scanpy
库加载 .loom
文件并查看其内容。
3.1 使用 velocyto
加载 .loom
文件
import velocyto as vcy
# 加载 .loom 文件
vlm = vcy.VelocytoLoom("output_dir/your_file.loom")
# 查看 spliced 和 unspliced 表达矩阵
spliced_matrix = vlm.layers['spliced']
unspliced_matrix = vlm.layers['unspliced']
# 查看细胞元数据
cell_metadata = vlm.ca # 细胞属性
gene_metadata = vlm.ra # 基因属性
# 查看速度向量
velocity_vectors = vlm.velocity
3.2 使用 scanpy
加载 .loom
文件
import scanpy as sc
# 加载 .loom 文件
adata = sc.read_loom("output_dir/your_file.loom")
# 查看 spliced 和 unspliced 表达矩阵
spliced_matrix = adata.layers['spliced']
unspliced_matrix = adata.layers['unspliced']
# 查看细胞元数据
cell_metadata = adata.obs
gene_metadata = adata.var
# 查看速度向量
velocity_vectors = adata.layers['velocity']
4. .loom
文件的应用
4.1 RNA 速度分析
- RNA 速度向量可以用于预测细胞的未来状态,例如细胞分化方向或细胞状态转变。
- 通过可视化速度向量(如 UMAP 或 t-SNE),可以推断细胞的动态变化。
4.2 基因表达动态
- 比较
spliced
和unspliced
表达量,可以研究基因的转录和剪接动力学。 - 例如,高
unspliced
表达量可能表示基因正在活跃转录。
4.3 伪时间分析
- 使用
latent_time
或 RNA 速度向量,可以推断细胞在发育或分化过程中的时间顺序。
5. 总结
velocyto
的输出文件(.loom
)包含了以下关键信息:
- spliced 和 unspliced 表达矩阵:分别表示成熟 mRNA 和 premRNA 的表达量。
- 细胞和基因的元数据:如细胞ID、基因名称、细胞类型等。
- RNA 速度向量:表示基因表达的变化趋势。
通过分析这些数据,可以研究细胞的转录动态、分化轨迹以及基因的剪接调控机制。