用VSCode Jupyter 学习Scanpy——轨迹推断

参考官网 https://scanpy-tutorials.readthedocs.io/en/latest/paga-paul15.html 学习
重建髓样和红系分化 数据为 Paul et al. (2015).

引入包
[1]

import numpy as np
import pandas as pd
import matplotlib.pyplot as pl
from matplotlib import rcParams
import scanpy as sc

[2]

sc.settings.verbosity = 3             # verbosity: errors (0), warnings (1), info (2), hints (3)
sc.logging.print_header()
results_file = './write/paul15.h5ad'
sc.settings.set_figure_params(dpi=80, facecolor='white')

[3]
数据是包里用一下命运引用,不用自己再下载哦

adata = sc.datasets.paul15()

[4]

adata

以比默认的“ float32”更高的精度进行工作,以确保在不同的计算平台上获得完全相同的结果。
[5]

adata.X = adata.X.astype('float64')  # this is not required and results will be comparable without it

预处理和可视化

可参考之前讲解的预处理方法也可以参考此应用简单的预处理方法
[6]

sc.pp.recipe_zheng17(adata)

[7]

sc.tl.pca(adata, svd_solver='arpack')

[8]

sc.pp.neighbors(adata, n_neighbors=4, n_pcs=20)
sc.tl.draw_graph(adata)

[9]

sc.pl.draw_graph(adata, color='paul15_clusters', legend_loc='on data')

看起来很乱
需要降噪

选择性:对图形进行降噪

为了使图去噪,在扩散图空间(而不是在PCA空间)中表示它。计算几个扩散分量内的距离就等于对图进行去噪-只考虑第一个一些分量。这与使用PCA去噪数据矩阵非常相似。该方法已在几篇论文中使用,例如参见Schiebinger(2017)Tabaka(2018)。这也与MAGIC Dijk背后的原理有关(2018)

对于PAGA,聚类或伪时间估计,这都不是必需的步骤。可以继续使用非去噪图。在许多情况下(也在此处),这将为您带来非常不错的效果。
[10]

sc.tl.diffmap(adata)
sc.pp.neighbors(adata, n_neighbors=10, use_rep='X_diffmap')

[11]

sc.tl.draw_graph(adata)

[12]

sc.pl.draw_graph(adata, color='paul15_clusters', legend_loc='on data')

这看起来仍然很杂乱,但是方式却不同:许多分支都被过度绘制。

分群 和 PAGA

请注意,在这里使用了sc.tl.leiden,现在 使用sc.tl.louvain为了复现论文结果。
[13]

sc.tl.louvain(adata, resolution=1.0)

使用基因marker 注释细胞群

cell type marker
HSCs Procr
Erythroids Gata1, Klf1, Epor, Gypa, Hba-a2, Hba-a1, Spi1
Neutrophils Elane, Cebpe, Ctsg, Mpo, Gfi1
Monocytes Irf8, Csf1r, Ctsg, Mpo
Megakaryocytes Itga2b (encodes protein CD41), Pbx1, Sdpr, Vwf
Basophils Mcpt8, Prss34
B cells Cd19, Vpreb2, Cd79a
Mast cells Cma1, Gzmb, CD117/C-Kit
Mast cells & Basophils Ms4a2, Fcer1a, Cpa3, CD203c (human)

对于简单的粗粒度可视化,计算PAGA图,粗粒度和简化(抽象)的图形。粗粒度图中的非重要边缘将被阈值化。
[14]

sc.tl.paga(adata, groups='louvain')

[15]

sc.pl.paga(adata, color=['louvain', 'Hba-a2', 'Elane', 'Irf8'])

[16]

sc.pl.paga(adata, color=['louvain', 'Itga2b', 'Prss34', 'Cma1'])

实际注释细胞 -注意Cma1是肥大细胞标记,仅出现在祖细胞/干细胞簇8的一小部分细胞中,参见下面的单细胞分解图。
[17]

adata.obs['louvain'].cat.categories

[18]

adata.obs['louvain_anno'] = adata.obs['louvain']

[19]

adata.obs['louvain_anno'].cat.categories = ['0', '1', '2', '3', '4', '5', '6', '7', '8', '9', '10/Ery', '11', '12',
       '13', '14', '15', '16/Stem', '17', '18', '19/Neu', '20/Mk', '21', '22/Baso', '23', '24/Mo']

对PAGA使用带注释的群集

[20]

sc.tl.paga(adata, groups='louvain_anno')

[21]

sc.pl.paga(adata, threshold=0.03, show=False)

使用PAGA初始化重计算嵌入

对于UMAP而言,以下是可能的
[22]

sc.tl.draw_graph(adata, init_pos='paga')

现在可以在有意义的布局中以单细胞分辨率查看所有基因marker。
[23]

sc.pl.draw_graph(adata, color=['louvain_anno', 'Itga2b', 'Prss34', 'Cma1'], legend_loc='on data')

选择与群集更加一致的颜色
[24]

pl.figure(figsize=(8, 2))
for i in range(28):
    pl.scatter(i, 1, c=sc.pl.palettes.zeileis_28[i], s=200)
pl.show()

[25]

zeileis_colors = np.array(sc.pl.palettes.zeileis_28)
new_colors = np.array(adata.uns['louvain_anno_colors'])

[26]

new_colors[[16]] = zeileis_colors[[12]]  # Stem colors / green
new_colors[[10, 17, 5, 3, 15, 6, 18, 13, 7, 12]] = zeileis_colors[[5, 5, 5, 5, 11, 11, 10, 9, 21, 21]]  # Ery colors / red
new_colors[[20, 8]] = zeileis_colors[[17, 16]]  # Mk early Ery colors / yellow
new_colors[[4, 0]] = zeileis_colors[[2, 8]]  # lymph progenitors / grey
new_colors[[22]] = zeileis_colors[[18]]  # Baso / turquoise
new_colors[[19, 14, 2]] = zeileis_colors[[6, 6, 6]]  # Neu / light blue
new_colors[[24, 9, 1, 11]] = zeileis_colors[[0, 0, 0, 0]]  # Mo / dark blue
new_colors[[21, 23]] = zeileis_colors[[25, 25]]  # outliers / grey

[27]

adata.uns['louvain_anno_colors'] = new_colors

并在某些群集名称中添加一些空格。这里显示的布局不同于原paper的布局,可以在此处看到。但是这些差异只是表面上的。从随机PCA和float32精度提高到float64精度,不得不更改布局。
[28]

sc.pl.paga_compare(
    adata, threshold=0.03, title='', right_margin=0.2, size=10, edge_width_scale=0.5,
    legend_fontsize=12, fontsize=12, frameon=False, edges=True, save=True)

针对给定的一组基因,沿PAGA路径重建基因变化

选择一个根细胞群进行伪时间扩散
[29]

adata.uns['iroot'] = np.flatnonzero(adata.obs['louvain_anno']  == '16/Stem')[0]

[30]

sc.tl.dpt(adata)

选择一些基因marker名称
[31]

gene_names = ['Gata2', 'Gata1', 'Klf1', 'Epor', 'Hba-a2',  # erythroid
              'Elane', 'Cebpe', 'Gfi1',                    # neutrophil
              'Irf8', 'Csf1r', 'Ctsg']                     # monocyte

使用完整的原始数据进行可视化
[31]

adata_raw = sc.datasets.paul15()
sc.pp.log1p(adata_raw)
sc.pp.scale(adata_raw)
adata.raw = adata_raw

[33]

sc.pl.draw_graph(adata, color=['louvain_anno', 'dpt_pseudotime'], legend_loc='on data')

[34]

paths = [('erythrocytes', [16, 12, 7, 13, 18, 6, 5, 10]),
         ('neutrophils', [16, 0, 4, 2, 14, 19]),
         ('monocytes', [16, 0, 4, 11, 1, 9, 24])]

[35]

adata.obs['distance'] = adata.obs['dpt_pseudotime']

[36]

adata.obs['clusters'] = adata.obs['louvain_anno']  # just a cosmetic change

[37]

adata.uns['clusters_colors'] = adata.uns['louvain_anno_colors']

[38]

!mkdir write

[39]

_, axs = pl.subplots(ncols=3, figsize=(6, 2.5), gridspec_kw={'wspace': 0.05, 'left': 0.12})
pl.subplots_adjust(left=0.05, right=0.98, top=0.82, bottom=0.2)
for ipath, (descr, path) in enumerate(paths):
    _, data = sc.pl.paga_path(
        adata, path, gene_names,
        show_node_names=False,
        ax=axs[ipath],
        ytick_fontsize=12,
        left_margin=0.15,
        n_avg=50,
        annotations=['distance'],
        show_yticks=True if ipath==0 else False,
        show_colorbar=False,
        color_map='Greys',
        groups_key='clusters',
        color_maps_annotations={'distance': 'viridis'},
        title='{} path'.format(descr),
        return_data=True,
        show=False)
    data.to_csv('./write/paga_path_{}.csv'.format(descr))
pl.savefig('./figures/paga_path_paul15.pdf')
pl.show()
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,752评论 6 493
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,100评论 3 387
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 159,244评论 0 349
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,099评论 1 286
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,210评论 6 385
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,307评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,346评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,133评论 0 269
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,546评论 1 306
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,849评论 2 328
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,019评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,702评论 4 337
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,331评论 3 319
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,030评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,260评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,871评论 2 365
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,898评论 2 351

推荐阅读更多精彩内容