前言
EcoTyper是一款以机器学习为基础框架的分析工具,能够从Bulk、单细胞、以及空间分辨率的基因表达数据中大规模地识别并验证细胞状态和生态型。我们在前面的推文中介绍了EcoTyper的分析框架和部分实操,感兴趣的小伙伴可以先阅读这一部分哦。
EcoTyper的代码实操主要分为6个部分:
那么,今天让我们一起来学习一下它的第二个部分——Recovery of Cell States and Ecotypes in User-Provided scRNA-seq Data。
代码流程
1.准备环境和数据
下载 EcoTyper
wget https://github.com/digitalcytometry/ecotyper/archive/refs/heads/master.zip
unzip master.zip
cd ecotyper-master
#EcoTyper是一个独立的软件,用R实现,但并不是R包哦。
R环境准备:
这是官网推荐的R和R包版本,但是小编用的最新的R版本,并且安装相应最新版本的R包也是很顺利的。
输入数据:
- 表达谱数据:结直肠癌scRNA-seq数据,数据存储在
example_data/scRNA_CRC_data.txt
中。
- 样本注释文件,数据存储在
example_data/scRNA_CRC_annotation.txt
。
2.recovery scripts
EcoTyper_recovery_scRNA.R
脚本用于在scRNA-seq数据中恢复细胞状态和生态型。
Rscript EcoTyper_recovery_scRNA.R -h
参数详解:
-
-d
或--discovery
:用于定义细胞状态和生态型的发现数据集的名称。可以选择的值包括'Carcinoma'(恶性肿瘤数据集)和'Lymphoma'(淋巴瘤数据集),也可以使用在运行EcoTyper发现脚本时配置文件中的自定义数据集名称。 -
-m
或--matrix
:输入单细胞RNA测序矩阵的路径。以制表符分隔,其中第一列是基因名称,列名是细胞。 -
-a
或--annotation
:输入矩阵中样本注释的文件路径,制表符分隔。文件中必须包含一个名为'ID'的列,其中包含与输入矩阵中的样本标识相同的ID,以及其他附加列。可选参数,默认值为'NULL'。 -
-c
或--columns
:用于指定在输出热图中作为颜色条形图显示的注释文件中的列名的逗号分隔列表。可选参数,默认为'NULL'。 - -z/–z-score:评估是否显著恢复了细胞状态(默认值为FALSE)。
- -s/–subsample:指定每个细胞类型将被降采样到的细胞数的整数。对于小于50的值,将不执行降采样。默认值:-1(不进行降采样)。
-
-t
或--threads
:线程数,默认值为10。 -
-o
或--output
:指定输出结果的目录路径,默认值为'RecoveryOutput'。 -
-h
或--help
:打印帮助信息。
运行脚本:
Rscript EcoTyper_recovery_scRNA.R -d Carcinoma -m example_data/scRNA_CRC_data.txt -a example_data/scRNA_CRC_annotation.txt -o RecoveryOutput -t 10
3.结果解读
可以看出结果主要分为两部分:各类型细胞的细胞状态恢复和生态型恢复。
细胞状态部分输出结果:
我们以成纤维细胞为例看下细胞状态恢复部分的结果。
- state_assignment_heatmap.pdf/png:展示了在每个细胞状态中具有最高 log2 FC的基因的表达情况,这些基因被称为细胞状态特异性标记基因。热图的列代表细胞,行代表每个细胞状态的标记基因。
- "state_assignment.txt":发现数据集中每个细胞被分配到的细胞状态。
基于这个文件,我们可以将细胞状态与临床结果(如患者的生存时间)进行关联研究。即使用 Kaplan-Meier 曲线和 log-rank 检验比较数据集中富集于不同的细胞状态的患者整体生存之间是否有差异。
- "heatmap_data.txt":热图 "state_assignment_heatmap" 对应数据。经过标准化处理的基因的表达水平。列代表细胞,行代表了每个细胞状态的标志基因。
- "heatmap_top_ann.txt":用户提供的注释文件与细胞状态相关的信息的整合。
生态型部分输出结果:
- "ecotype_abundance.txt":在发现数据集中的每个生态型(ecotype)相对丰度的信息。
- "ecotype_assignment.txt":发现数据集中的样本分配到各个生态型的信息。未被分配到任何生态型的样本将从该文件中被过滤掉。
- "heatmap_assigned_samples_viridis.pdf/png":EcoTyper推断出的细胞状态分数的热图,这些细胞状态被分配到生态型中。
4.血液肿瘤中恢复细胞状态和生态型
以上部分展示了如何在实体肿瘤中恢复细胞状态和生态型,我们也可以调整参数,实现在血液肿瘤中恢复细胞状态和生态型哦。
Rscript EcoTyper_recovery_scRNA.R -d Lymphoma -m example_data/scRNA_lymphoma_data.txt -a example_data/scRNA_lymphoma_annotation.txt -o RecoveryOutput -c Tissue -t 10
小结
在本期推文中,我们介绍了如何使用EcoTyper对scRNA-seq数据恢复细胞状态和生态型。无论是在Bulk数据还是单细胞转录组数据上,EcoTyper的运行速度都是很快的。我们将在下期推文中继续和大家学习EcoTyper的实操--Recovery of Cell States and Ecotypes in Spatial Transcriptomics data,关于今天的学习内容,感兴趣的小伙伴快来用起来吧~
好啦,本期的分享到这里就结束了,我们下期再会~