什么?一个单细胞样本变成俩了?

1.背景知识

众所周知,单细胞转录组数据的输入文件是多种多样的,详见:不同文件格式单细胞数据读取流程 https://mp.weixin.qq.com/s/W7szy-Kg6G1N1ENHNRjGiw

除了标准三个文件的格式,就还有很多其他的!

今天来看一个小坑坑。

这个数据是GSM4453576,给的是txt.gz格式,gz是压缩格式,不用解压可以正常读取。

所以正常的读取方式应该是这样:

a = data.table::fread("GSM4453576_P1_exp.txt.gz",data.table = F)
a = tibble::column_to_rownames(a,"V1")
a[1:4,1:4]

然后把这个表达矩阵传递给counts参数即可:

library(Seurat)
seu.obj <- CreateSeuratObject(counts = a, 
                              min.cells = 3, 
                              min.features = 200)
dim(seu.obj)
## [1] 20769  5317

2.发现bug并找到源头

但是呢,后面做质控小提琴图时就会发现,好好的一个样本居然被画在两个小提琴里了?按理来说单样本数据应该是只有一个才对。

VlnPlot(seu.obj,"nCount_RNA")

[图片上传失败...(image-3d653b-1721981237535)]

甚至有的数据是这样(来自学生)

image.jpeg

不仔细看都看不出来横坐标有3个,其中第三个只有一个点(可能是读取的代码有啥毛病吧,谁做错了参考我的作为答案就行,手动狗头)。

image.jpeg

还给了个warning,让设置drop=F,我起初以为这个参数就是解决问题的,实际上它只能解决点的数量太少的”分组“被删掉的问题,例如上图中的”V5381”。并不能解决org.ident的问题。

VlnPlot不指定颜色的时候,就是按照orig.ident分配颜色的,所以问题出在orig.ident上面:

table(seu.obj$orig.ident)
## 
##    1    2 
## 1596 3721

果然,orig.ident分了1和2。正常的单样本数据应该是同一个值,默认是SeuratProject ,如果CreateSeuratObject时设置了project参数的话,那么orig.ident的值就会是设置的值,没啥用,设不设置都一样用。

name为啥会这样呢,是因为CreateSeuratObject默认的样本识别机制:

帮助文档里面有两个参数:

names.field:For the initial identity class for each cell, choose this field from the cell’s name. E.g. If your cells are named as BARCODE_CLUSTER_CELLTYPE in the input matrix, set names.field to 3 to set the initial identities to CELLTYPE.

names.delim:or the initial identity class for each cell, choose this delimiter from the cell’s column name. E.g. If your cells are named as BARCODE-CLUSTER-CELLTYPE, set this to “-” to separate the cell name into its component parts for picking the relevant field.

其中names.field是指定列名里面的第几部分是初始分类(初始分类就是样本) names.delim是分隔符,上面说索的”第几部分“指的是按照某分隔符分割后的”第几部分“,默认值是_。

所以按照帮助文档里的例子就很好理解了:假如列名是BARCODE_CLUSTER_CELLTYPE的格式,默认值就是把按照”“为分隔符(names.delim的默认值为”)拆分出来的第1部分(names.field默认值为1)作为orig.ident!

这样也就理解了它是怎么给我们把一个样本拆成两个的:

library(stringr)
colnames(a) %>%
  str_split_i("_",1) %>%
  table()
## .
##    1    2 
## 1596 3721

和上面table(seu.obj$orig.ident)的结果是呼应的。

所以问题就是列名第一部分不统一。

3.解决办法

有很多种办法可以解决:

例如names.field = 2,忽略第一部分,按照第二部分,但第二部分是真正的barcode,每个细胞都不一样,所以就和正常的、没有前缀的数据会同等处理,都设为一个值。

seu.obj <- CreateSeuratObject(counts = a, 
                              min.cells = 3, 
                              min.features = 200,
                              names.field = 2)
table(seu.obj$orig.ident)
## 
## SeuratProject 
##          5317

再例如names.delim=“,”,逗号可以换成任何一个在列名里不存在的符号,这样就会把全部列名识别为第一个部分。

seu.obj <- CreateSeuratObject(counts = a, 
                              min.cells = 3, 
                              min.features = 200,
                              names.delim = ",")
table(seu.obj$orig.ident)
## 
## SeuratProject 
##          5317

再例如改列名,删掉前缀,不过这种方法有点风险,某些抽风数据会有重复的barcode。

colnames(a) = str_split_i(colnames(a) ,"_",2) 
seu.obj <- CreateSeuratObject(counts = a, 
                              min.cells = 3, 
                              min.features = 200)
table(seu.obj$orig.ident)
## 
## SeuratProject 
##          5317

其实还有别的方法,比如RenameIdents(),就不一一列举了。

4.总结

需要了解单细胞对象,多多积累经验,寻找bug源头并杜绝它。

我发现后时候大家是被动的去解决问题,而不是寻找源头来杜绝,比如某位学员的思维是把1和2合并然后去批次!

事实是这个数据是一个样本,被分成两个仅仅是函数的默认参数与数据实际情况不符,这不是真的两个样本,既然被错误的拆分,我们就应该避免这个错误,而不是在错误的基础上继续往前走,都没有批次效应,何来去批次之说呢?

越发感觉到培养解决问题的思维比解决问题本身更重要。

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 194,491评论 5 459
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 81,856评论 2 371
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 141,745评论 0 319
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 52,196评论 1 263
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 61,073评论 4 355
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 46,112评论 1 272
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 36,531评论 3 381
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 35,215评论 0 253
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 39,485评论 1 290
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 34,578评论 2 309
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 36,356评论 1 326
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 32,215评论 3 312
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 37,583评论 3 299
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 28,898评论 0 17
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 30,174评论 1 250
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 41,497评论 2 341
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 40,697评论 2 335

推荐阅读更多精彩内容