pySCENIC 软件分析原理
利用GENIE3算法识别与转录因子共表达的基因集合,但结果包含大量的假阳性结果和间接靶标;
RcisTarget通过基序富集分析来排除假阳性和间接靶标。排除标准:基因的启动子或增强子区域没有该TF的结合位点;基因携带该TF基序的比例不显著高于背景基因;
通过AUCell算法对调控子(regulon)的整体活性进行打分,即一个细胞里调控子包含的很多基因都高表达,那么这个调控子的活性得分就高。后续可基于此,识别不同的细胞类型与状态
代码
#1. GRN
pyscenic grn --num_workers 10 \
--sparse \
--method grnboost2 \
--output sce.adj.csv \
sce.loom \
./hs_hgnc_tfs.txt
#2. RcisTarget
pyscenic ctx --num_workers 10 \
--output sce.regulons.csv \
--expression_mtx_fname sce.loom \
--all_modules \
--mask_dropouts \
--mode "dask_multiprocessing" \
--min_genes 10 \
--annotations_fname ../motifs-v9-nr.hgnc-m0.001-o0.0.tbl \
sce.adj.csv \
./hg38__refseq-r80__10kb_up_and_down_tss.mc9nr.genes_vs_motifs.rankings.feather
#3. AUCell
pyscenic aucell --num_workers 3 \
--output sce_SCENIC.loom \
sce.loom \
sce.regulons.csv
输出结果文件
第二步和第三步输出的结果都有用,先看第二步输出的结果文件sce.regulons.csv

image.png
关键列:TF,NES,TargetGenes
后续可做的分析:
- 靶基因功能富集分析
- 构建TF-靶基因调控网络(Cytoscape)
- 筛选核心调控因子(计算每个TF调控的靶基因数量→数量排序→结合NES筛选可靠的hub-TFs)
- 跨细胞类型/疾病的比较分析(共同激活的YFs或靶基因)
- TFs调控差异基因
第三步输出的结果sce_SCENIC.loom

image.png
数值是每个细胞中每个TF的活性分数
后续可做的分析:
- TF活性可视化(UMAP; vlnplot; heatmap)
- 细胞类型特异性分析(RSS分析:计算每个regulon对每种细胞亚群的特异性得分→ 每个细胞亚群的主导TF regulon)
- 拟时序动态分析
- TF共调控网络分析(CSI矩阵+重聚类)
- TF在细胞周期阶段的分析
- 与表型/临床信息关联
- 高/低TF活性组的差异表达分析