单细胞数据科学中的里程碑与检查点

我们曾经在一节公开课里面提到过单细胞数据科学的几个主特点:

  • 继承了很多Bulk的分析方法
  • 商业开源,容易上手
  • 开发速度快
  • 教程文档丰富
  • 数据分析过程非线性

基于以上特点,我们发现单细胞数据科学的学习曲线往往不是S上升形的,而是快速上升形成单峰(在降维聚类那)而后略有下降再缓慢上升的过程。

Phase1:以好奇冲动为主要特征。单细胞数据科学比较火(Gui),做起来倍有面儿,而且发现很多分析点很容易就跑通了(商业开源)。拿到一张和CNS结构类似的图谱,很是开心。每天也充满干劲,学习的动力也足。这个看文献跑教程的快感大概持续一个月。

Phase2:以迷茫依赖为主要特征。一般做完了降维聚类以及轨迹推断(探索性数据分析)之后,一些朋友可能做完了他们所能想到的所有单细胞分析点之后,迷茫情绪开始弥漫开来:该做的分析我都做了,但还是没有找到那个点。我聚成了十八个类,也都做了细胞类型注释/轨迹推断/富集分析/转录因子调控,但依然不是一个完整的故事。于是期望有一个大佬来在关键的地方点一下,因为没有这一点的话,之前的数据分析不过是在堆砌工具。其实每种工具只是提供了一个数据视角,透过这个视角看能不能发现什么。故事的结局往往是:在某个夜深人静的午夜,透过这么多侧面,灵感一现,狠下心来敲定故事的落脚点。这个过程不好评估。

Phase3:经过了Phase1/Phase2的锻炼,这个故事既有了骨架(工具),也有了灵魂(落脚点),也许之前的质控降维聚类都要重新做(如cellranger做的分析,测序公司做的),好处是这些工具和教程都会了,很快就可以在技术上实现。站在这个谷底回望来时路,其实之前做的工作不能算作研究,只是在学习工具的使用和背景知识而已,而Phase3这里我们具备了研究的能力和那个点。这时候研究才刚刚开始:再次审视数据,验证实验等等。

Phase4:这是少数人能进入的领地。这一阶段的高人往往开始关注比工具的使用和故事的结构更为宏观的主题,如引领行业方向,算法的开发等。

那么我们说的单细胞数据科学发生在哪个阶段呢:Phase3。

在Phase3之前不过是学习如何做研究,也就是为进入单细胞数据科学做数据/技能/背景方面的准备工作。我们先看看数据科学的一般流程是怎样的,在《R语言数据科学》中作者为我们勾勒出数据科学的一般流程:

这个流程图也刚好对应着单细胞数据科学过程的里程碑和检查点事件。首先,我们为什么需要里程碑思维?是因为这个可以有序地推进我们的工作,知道哪一步到哪了,在那里需要注意什么。有了里程碑,也可以避免反复的工作,不必担心上一步做的合适不合适。

里程碑事件一:数据导入。这个看起来很简单,但是依然有些需要注意的事项。如果能够顺利地导入数据,说明已经具备了基本的数据分析能力。在单细胞数据分析过程中,数据的导入除了直接读矩阵之外,每每要调用不同的分析工具也需要进行数据格式的转化。数据转化时尽量保证行和列都不要有全零的情况,也就时每次subset的时候需要注意这个。这时候还应该把数据质控做好。

里程碑二:数据整理。数据整理在单细胞数据分析中往往对应数据整合与批次处理。要避免的一个想法是:拿到数据就去批次,应该先用merge的方式在没有任何数据矫正之前查看数据的状态,来判断是否需要去批次(或其他处理)。原则是:不要处理未知的变量,因为你不知道自己去除的是什么。这时候应该确定图谱的基本结构。确定是整合还是merge,是tsne还是umap。

里程碑三:聚类分析。聚类其实属于数据科学流程中的模型,在单细胞数据分析中基本的分析单位是细胞群,请注意,而不是单个细胞。可以把聚类看作寻找数据中潜在模式的一种手段,可以多次利用聚类手段,实现不同目的。聚类可以结合clustree聚成不同的数量的类别,根据类别之间的关系来确定聚类数。这里一般有两个声音:一个是说先聚成大类,在大类中分出小类;一个说一步到位,先尽可能地多聚几类,后面根据marker合并。这两个策略都是可以的,工程上来说,后一种有更高的效率。这里应该确定数据集的聚类个数,各个亚群在不同样本来源的比例。

里程碑四:可视化。一篇文章也许只有fig7,而我们可能需要绘制几百张图。可视化不仅是如何画的问题,更多地是show什么的问题。懂忽略什么和懂得重视什么一样重要。可视化不仅是绘图技巧问题,更多地是生物学问题论证的过程。这里我劝各位多停留几分钟,用多种形式可视化(哪怕是同一个问题),以不同的形式展现数据,如果发现不了想讲的问题,就是一直画下去,直到画出感兴趣的点为止。

里程碑五:报告你的数据。在画了两三百页PPT的图之后,终于找到了一个主线可以把它们传成一个故事了。这时候往往显示出可重复分析是多麽的重要了,有可能你会发现,由于代码或者软件版本(环境)的不同之前的图重复不出来了。悲夫。一切准备停当,当我们开始把自己的CNS落实到纸上的时候,单细胞数据分析并没有停止,而是变得更加微妙,不像一开始那样大刀阔斧了。第一步是报告数据给你自己,然后是把数据报告给读者。

里程碑六:引入第三方数据。是指想用已发表的数据或数据库数据来丰富自己的故事,在这之前请确定自己的故事已经掌握的很好了,而不是还在找点的过程中。因为第三方数据来源不均一,而且带来的结论很可能和手里重要的数据不一致(不管哪方面的)。除非这个第三方数据是您本来就很熟悉的,否则如无必要,勿增实体,虽然这几乎已经成为趋势了。

其实本文在讨论的是一个数据科学项目的生命周期问题,单细胞数据分析的终点在哪,文章见刊吗?

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,039评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,223评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 161,916评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,009评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,030评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,011评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,934评论 3 416
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,754评论 0 271
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,202评论 1 309
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,433评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,590评论 1 346
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,321评论 5 342
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,917评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,568评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,738评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,583评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,482评论 2 352

推荐阅读更多精彩内容