scanpy踩坑实录

日常瞎掰

最近在分析scRNA-seq的数据，三个样本数据不大，用Seurat分析真的很香！奈何又要下载公共数据的样本，这样一捣腾，Seuart倒显得有些力不从心了，何也？没成想公共数据提供的矩阵里面有48万多个细胞，加上自有的两万多个细胞，共有50多万个细胞，这数据量用Seuart处理多少有点费劲了，怎么办？所以，很自然地就想到了scanpy，python处理大数据的能力比起R还是没话说的。可是，习惯了Seuart，突然转到较为陌生的scanpy，不知不觉就花了好多时间在踩坑上面，特此记录一下。

踩坑1

scanpy对象的.X属性里面存储的是表达矩阵，可是这个矩阵会随着处理步骤一直变化，如normalize、log1p步骤后，里面就变成标准化的log矩阵了，就不再是原始count值了，并不会像Seuart那样会分别存储原始矩阵和处理后的矩阵。多样本的对象合并前最好不要做任何数据处理步骤，否则就要注意了。像本人在合并自有数据和公共数据时，先处理了自有数据随后合并公共数据，然后就遇到了下图中的问题。自己还在网上各种查找解决问题的办法，还别说真有遇到同样问题的情况，不过给出的答案也没法解决。

当时并没有反应过来，现在想来这个坑还是自己挖的，原因就在于，在合并自有和公共数据前，先处理了自有数据，所以里面的矩阵值是标准化的log值，合并公共数据后再对数据做normalize、log1p时产生了很多nan值，从而引发这个错误。想想真是无语至极，此处省略一万字的内心活动。
不过，话说回来，踩坑也并不完全是坏事，这样以后合并不同的样本对象时，就知道怎么做了。如果再遇到同样的问题，首先就会知道应该先检查对象矩阵里面是不是原始count值。

踩坑2

scanpy对象里面保存原始count矩阵，其实对于这个需求scanpy已经提前想到了，所以scanpy对象预留了.raw属性来存储。当然，这个属性只能保存scanpy对象不能直接只保存表达矩阵，如果想只保存矩阵可以自定义一个属性来存储。那么，问题来了，自定义属性其实并不安全，数据处理过程中有可能丢失。这到底怎么回事呢？看看下面一段代码：

import scanpy as sc

adata = sc.read_h5ad('pbmc3k_scanpy.h5ad')
adata
AnnData object with n_obs × n_vars = 2700 × 32738
    var: 'gene_ids'

adata.count = adata.X
adata.count
<2700x32738 sparse matrix of type '<class 'numpy.float32'>'
        with 2286884 stored elements in Compressed Sparse Row format>

adata.var["mt"] = adata.var_names.str.startswith("MT-")
sc.pp.calculate_qc_metrics(adata, qc_vars=["mt"], percent_top=None, log1p=False, inplace=True)

sc.pp.filter_cells(adata, min_genes = 200)
sc.pp.filter_genes(adata, min_cells = 3)
adata = adata[(adata.obs.total_counts > 500) & (adata.obs.n_genes > 300) & (adata.obs['pct_counts_mt'] <= 5), :]
adata
View of AnnData object with n_obs × n_vars = 2633 × 13714
    obs: 'n_genes', 'n_genes_by_counts', 'total_counts', 'total_counts_mt', 'pct_counts_mt'
    var: 'gene_ids', 'n_cells', 'mt', 'n_cells_by_counts', 'mean_counts', 'pct_dropout_by_counts', 'total_counts'

adata.count
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
AttributeError: 'AnnData' object has no attribute 'count'

从上面的代码可以知道，如果对象采用类似R数据框形式的方式筛选子集会丢失掉自定义属性。所以，用自定义属性方式存储原始矩阵时，得要保证后面没有这样方式的取子集操作，否则属性丢了都不知道。
当然，我们可以用.raw属性来保存原始的对象，这样原始矩阵也就会一同被保留下来。而且这个方式不会因为子集操作而丢失，是不是就可以随意操作了呢？看看下面的代码：

adata = sc.read_h5ad('pbmc3k_scanpy.h5ad')
adata
AnnData object with n_obs × n_vars = 2700 × 32738
    var: 'gene_ids'

adata.raw = adata
adata.raw.count
<2700x32738 sparse matrix of type '<class 'numpy.float32'>'
        with 2286884 stored elements in Compressed Sparse Row format>

adata.var["mt"] = adata.var_names.str.startswith("MT-")
sc.pp.calculate_qc_metrics(adata, qc_vars=["mt"], percent_top=None, log1p=False, inplace=True)

sc.pp.filter_cells(adata, min_genes = 200)
sc.pp.filter_genes(adata, min_cells = 3)
adata = adata[(adata.obs.total_counts > 500) & (adata.obs.n_genes > 300) & (adata.obs['pct_counts_mt'] <= 5), :]
adata
View of AnnData object with n_obs × n_vars = 2633 × 13714
    obs: 'n_genes', 'n_genes_by_counts', 'total_counts', 'total_counts_mt', 'pct_counts_mt'
    var: 'gene_ids', 'n_cells', 'mt', 'n_cells_by_counts', 'mean_counts', 'pct_dropout_by_counts', 'total_counts'

adata.raw.X
<2633x32738 sparse matrix of type '<class 'numpy.float32'>'
        with 2254830 stored elements in Compressed Sparse Row format>

adata.X = adata.raw.X
Traceback (most recent call last):
  File "<stdin>", line 1, in <module>
  File "~/.local/lib/python3.6/site-packages/anndata/_core/anndata.py", line 696, in X
    f"Data matrix has wrong shape {value.shape}, "
ValueError: Data matrix has wrong shape (2633, 32738), need to be (2633, 13714).

从上面的代码可以看到，.raw.X确实保存了原始矩阵，而且也没有被取子集操作影响，可以说没有一点变化还是保留了所有细胞。当然，使用这种方式还是有好处的，方便后续直接使用，因为scanpy有些步骤可以指定使用原始矩阵，默认就是从这个属性里面读取的。
所以，从上面两种方式可以得知，想要在对象里面保留原始矩阵，需要注意时间节点，不然原始矩阵与正在使用的矩阵维度不同，也没法直接使用原始矩阵。

结束语

scanpy的处理数据的过程基本与Seuart保持一致，完全可以类比，如果熟悉Seurat的使用，那么使用scanpy的学习成本就会降低不少。一般按照常规分析流程，也不会遇到什么问题。如果进行一些个性操作，就要注意scanpy的特性了，否则不出意外的话就会出现意外了。在不熟悉的情况下，来一些非常规操作就出现了意外，说不定就会像咱一样晕乎乎的走一些弯路。因此，既然要进行数据分析了，势必会进行这样那样的操作，所以分析前还是有必要先看看文档认识一下scanpy，正所谓磨刀不误砍柴工嘛，这样做也许后续可以避免不少的麻烦。

往期回顾

差异基因密度分布
 R绘图配色总结
 saddleplot | A/B compartments
双曲线火山图一键拿捏
 ChIP-seq数据质控

人面猴
序言：七十年代末，一起剥皮案震惊了整个滨河市，随后出现的几起案子，更是在滨河造成了极大的恐慌，老刑警刘岩，带你破解...
沈念sama阅读 216,372评论 6赞 498
死咒
序言：滨河连续发生了三起死亡事件，死亡现场离奇诡异，居然都是意外死亡，警方通过查阅死者的电脑和手机，发现死者居然都...
沈念sama阅读 92,368评论 3赞 392
救了他两次的神仙让他今天三更去死
文/潘晓璐我一进店门，熙熙楼的掌柜王于贵愁眉苦脸地迎上来，“玉大人，你说我怎么就摊上这事。” “怎么了？”我有些...
开封第一讲书人阅读 162,415评论 0赞 353
道士缉凶录：失踪的卖姜人
文/不坏的土叔我叫张陵，是天一观的道长。经常有香客问我，道长，这世上最难降的妖魔是什么？我笑而不...
开封第一讲书人阅读 58,157评论 1赞 292
港岛之恋（遗憾婚礼）
正文为了忘掉前任，我火速办了婚礼，结果婚礼上，老公的妹妹穿的比我还像新娘。我一直安慰自己，他们只是感情好，可当我...
茶点故事阅读 67,171评论 6赞 388
恶毒庶女顶嫁案：这布局不是一般人想出来的
文/花漫我一把揭开白布。她就那样静静地躺着，像睡着了一般。火红的嫁衣衬着肌肤如雪。梳的纹丝不乱的头发上，一...
开封第一讲书人阅读 51,125评论 1赞 297
城市分裂传说
那天，我揣着相机与录音，去河边找鬼。笑死，一个胖子当着我的面吹牛，可吹牛的内容都是我干的。我是一名探鬼主播，决...
沈念sama阅读 40,028评论 3赞 417
双鸳鸯连环套：你想象不到人心有多黑
文/苍兰香墨我猛地睁开眼，长吁一口气：“原来是场噩梦啊……” “哼！你这毒妇竟也来了？” 一声冷哼从身侧响起，我...
开封第一讲书人阅读 38,887评论 0赞 274
万荣杀人案实录
序言：老挝万荣一对情侣失踪，失踪者是张志新（化名）和其女友刘颖，没想到半个月后，有当地人在树林里发现了一具尸体，经...
沈念sama阅读 45,310评论 1赞 310
护林员之死
正文独居荒郊野岭守林人离奇死亡，尸身上长有42处带血的脓包…… 初始之章·张勋以下内容为张勋视角年9月15日...
茶点故事阅读 37,533评论 2赞 332
白月光启示录
正文我和宋清朗相恋三年，在试婚纱的时候发现自己被绿了。大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
茶点故事阅读 39,690评论 1赞 348
活死人
序言：一个原本活蹦乱跳的男人离奇死亡，死状恐怖，灵堂内的尸体忽然破棺而出，到底是诈尸还是另有隐情，我是刑警宁泽，带...
沈念sama阅读 35,411评论 5赞 343
日本核电站爆炸内幕
正文年R本政府宣布，位于F岛的核电站，受9级特大地震影响，放射性物质发生泄漏。R本人自食恶果不足惜，却给世界环境...
茶点故事阅读 41,004评论 3赞 325
男人毒药：我在死后第九天来索命
文/蒙蒙一、第九天我趴在偏房一处隐蔽的房顶上张望。院中可真热闹，春花似锦、人声如沸。这庄子的主人今日做“春日...
开封第一讲书人阅读 31,659评论 0赞 22
一桩弑父案，背后竟有这般阴谋
文/苍兰香墨我抬头看了看天上的太阳。三九已至，却和暖如春，着一层夹袄步出监牢的瞬间，已是汗流浃背。一阵脚步声响...
开封第一讲书人阅读 32,812评论 1赞 268
情欲美人皮
我被黑心中介骗来泰国打工，没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留，地道东北人。一个月前我还...
沈念sama阅读 47,693评论 2赞 368
代替公主和亲
正文我出身青楼，却偏偏与公主长得像，于是被迫代替她去往敌国和亲。传闻我的和亲对象是个残疾皇子，可洞房花烛夜当晚...
茶点故事阅读 44,577评论 2赞 353

scanpy踩坑实录

日常瞎掰

踩坑1

踩坑2

结束语

往期回顾

推荐阅读更多精彩内容