使用Palantir进行单细胞发育轨迹推断分析

Palantir是一种对单细胞测序数据进行分化发育轨迹推断的算法,于2019年发表在Nature Biotechnology上。Palantir将细胞分化模拟为一个随机的过程,其中干细胞通过一系列步骤最终分化为终末分化的细胞。Palantir能有效地捕获细胞分化状态的连续性和细胞命运决定的随机性。

安装所依赖的python包

Palantir是基于python3开发的,可以直接通过pip进行安装

pip install PhenoGraph
pip install rpy2
pip install palantir

下载示例数据集

在palantir包的data文件夹下存放了一个示例数据集,以下分析流程使用这个数据集进行分析。

wget -c https://github.com/dpeerlab/Palantir/raw/master/data/marrow_sample_scseq_counts.csv.gz

加载示例数据集

Palantir可以从csv文件,mtx文件,10x count文件和HDF文件读取scRNA-seq数据。csv文件应为count的cell X gene的表达矩阵。

# 加载所需的python包
import palantir
# Plotting and miscellaneous imports
import os
import matplotlib
import matplotlib.pyplot as plt
import pandas as pd
%matplotlib inline
# 加载示例数据集
palantir_dir = os.path.expanduser('~/dongwei/palantir/data/')
counts = palantir.io.from_csv(palantir_dir + 'marrow_sample_scseq_counts.csv.gz')
counts
image

对于其他格式的文件,可以使用palantir.io.from_mtxpalantir.io.from_10xpalantir.io.from_10x_HDF5等函数进行读取。

原始数据进行质控

Palantir可以对原始数据进行质控,使用palantir.preprocess.filter_counts_data函数用于删除低分子计数的细胞和具有低检测率的基因。

# 查看原始数据的特征
fig, ax = palantir.plot.plot_molecules_per_cell_and_gene(counts)
# 过滤细胞和基因
filtered_counts = palantir.preprocess.filter_counts_data(counts, cell_min_molecules=1000, genes_min_cells=10)
image

数据的归一化和标准化

Palantir将每个细胞的计数除以检测到的总分子作为归一化的指标,还可以对数据进行log值的转换。

norm_df = palantir.preprocess.normalize_counts(counts)
norm_df = palantir.preprocess.log_transform(norm_df)

数据的PCA降维

# PCA reduction
pca_projections, _ = palantir.utils.run_pca(norm_df)
# Run diffusion maps
dm_res = palantir.utils.run_diffusion_maps(pca_projections, n_components=5)
ms_data = palantir.utils.determine_multiscale_space(dm_res)

Palantir可以使用MAGIC算法对单细胞的表达数据进行imputation处理

# MAGIC imputation
imp_df = palantir.utils.run_magic_imputation(norm_df, dm_res)

tSNE降维可视化

# tSNE visualization
tsne = palantir.utils.run_tsne(ms_data)
fig, ax = palantir.plot.plot_tsne(tsne)
image
fig, ax = palantir.plot.plot_tsne_by_cell_sizes(counts, tsne)
image

绘制特征基因的表达谱

使用plot_gene_expression函数,可以在tSNE图上显示一些特征基因的表达谱。

palantir.plot.plot_gene_expression(imp_df, tsne, ['CD34', 'MPO', 'GATA1', 'IRF8'])
image

对降维后的数据进行聚类分群

Palantir使用Phenograph对数据进行聚类,并进行可视化

# 数据聚类
clusters = palantir.utils.determine_cell_clusters(pca_projections)
image
# 聚类结果可视化
palantir.plot.plot_cell_clusters(tsne, clusters )
image

运行Palantir进行分化发育轨迹推断

可以指定一个近似的最早的起始细胞来运行Palantir。Palantir可以自动确定终末分化状态的细胞,也可以使用termine_states参数指定它们。

# 运行Palantir
start_cell = 'Run5_164698952452459'
pr_res = palantir.core.run_palantir(ms_data, start_cell, num_waypoints=500)

Palantir运行完后生成的结果包含以下数据:
Pseudotime: Pseudo time ordering of each cell
Terminal state probabilities: Matrix of cells X terminal states. Each entry represents the probability of the corresponding cell reaching the respective terminal state
Entropy: A quantiative measure of the differentiation potential of each cell computed as the entropy of the multinomial terminal state probabilities

# 查看自动生成的终末分化的细胞
pr_res.branch_probs.columns
image
# 根据已有的生物学知识对终末分化的细胞进行重命名
mapping = pd.Series(index=['DC', 'Mono', 'Ery'])
mapping['DC'] = tsne.loc[pr_res.branch_probs.columns, 'x'].idxmax()
mapping['Ery'] = tsne.loc[pr_res.branch_probs.columns, 'y'].idxmin()
mapping['Mono'] = pr_res.branch_probs.columns.difference(mapping.values)[0]
mapping = pd.Series(mapping.index, index=mapping)
pr_res.branch_probs.columns = mapping[pr_res.branch_probs.columns]
pr_res.branch_probs = pr_res.branch_probs.loc[:, ['Ery', 'Mono', 'DC']]

可视化Palantir的结果

使用plot.plot_palantir_results函数对palantir运行的结果进行可视化

palantir.plot.plot_palantir_results(pr_res, tsne)
image

查看一些细胞在不同终末分化细胞中的分布比例

cells = ['Run5_164698952452459', 'Run5_170327461775790', 'Run4_121896095574750', ]
palantir.plot.plot_terminal_state_probs(pr_res, cells) 
image

高亮一些细胞查看他们的分布

palantir.plot.highlight_cells_on_tsne(tsne, cells)
image

基因表达趋势分析

Palantir使用Generalized Additive Models(GAMs)模型计算基因在不同分化细胞中的表达趋势

# 选择特征基因
genes = ['CD34', 'MPO', 'GATA1', 'IRF8']
# 计算基因的表达趋势
gene_trends = palantir.presults.compute_gene_trends( pr_res, imp_df.loc[:, genes])
image

基因表达趋势的可视化

palantir.plot.plot_gene_trends(gene_trends)
image

绘制基因表达趋势热图

palantir.plot.plot_gene_trend_heatmaps(gene_trends)
image

查看相关函数的使用说明

对于一些函数的参数和使用方法,可以通过help()函数查看其相关使用说明,如:

help(palantir.core.run_palantir)
image
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,076评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,658评论 3 389
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,732评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,493评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,591评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,598评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,601评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,348评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,797评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,114评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,278评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,953评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,585评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,202评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,180评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,139评论 2 352

推荐阅读更多精彩内容