2022-04-07 张泽民老师文章选读之SciBet as a portable and fast single cell type identifier

看了生信人公众号的推文,才发现张泽民老师的研究涉猎非常广,其中很多生信分析和分析工具我豆豆很感兴趣,近几天计划把老师的研究捋一捋,今天先就选出来的一些感兴趣的文章进行阅读。原文摘录如下

2020发表的“SciBet as a portable and fast single cell type identifier”,是一款单细胞细胞类型注释软件。除了速度优势及可解释性强之外,其训练后的模型大小也非常小,另外还提供了基于JavaScript实现的在线版SciBet(http://scibet.cancer-pku.cn/)。用户无需上传自己的数据,上传的是预训练模型或本地加载自定义训练集即可在浏览器中快速完成测试集中的细胞类型鉴定,并得到可视化分类结果。
2020年发表的“An entropy-based metric for assessing the purity of single cell populations”,作者提出了一种单细胞类群纯度评估新方法。
2020年Cell research 上的“Reconstruction of cell spatial organization from single-cell RNA sequencing data based on ligand-receptor mediated self-assembly”的文章是scRNA-seq结合空间转录组的应用。
2020年“Genomic basis for RNA alterations in cancer”的研究论文,将RNA和DNA测序分析整合在一起,将在癌症研究中发挥强大作用。
2021纯单细胞数据挖掘发表在Cell杂志上的篇名为“A pan-cancer single-cell transcriptional atlas of tumor infiltrating myeloid cells”的文章。
2021年Genome Biology上,篇名为“iMAP: integration of multiple single-cell datasets by adversarial paired transfer networks”的研究。一个用于单细胞数据整合的工具,基于python语言编写。

最感兴趣的2020年的SciBet,阅读记录如下

abstruct

针对单细胞 RNA 测序数据,预测新测序细胞的细胞身份。

总结:不是完全等同于注释,公众号上此处不太严谨。

introduction

面对爆炸性的数据增长,一个主要挑战是给定一个新测序的细胞可靠和快速的细胞类型识别。使用注释标签对新生成的数据进行有监督的细胞类型注释比无监督方法更可取,因为无监督方法往往更加费力且计算量更大。使用多项分布模型和最大似然估计来开发 SciBet,最后,我们提供本地和基于 Web 的 SciBet 实现。

总结:主要讲工具是预测类型的,速度是最大优势,提供本地版和web服务。

result

Overview of the algorithm
SciBet 算法由 4 个步骤组成:预处理、特征选择、模型训练和细胞类型分配(分别为图 1a-d)。


image.png

预处理:对于 scRNA-seq 的训练数据集,我们使用常见的预处理管道(方法)获得了归一化的表达矩阵,并计算了具有相同细胞类型的细胞的平均表达值,这是以下步骤所需的(图 1a)。
特征选择:因为并非所有基因都对此类分类问题同样有用,我们开发了E-test,选择细胞类型特异性基因,首先应用信息论中的统计熵来衡量泊松-伽玛混合分布基因表达的离散程度,熵可以直接通过平均基因表达的对数来估计。我们提出了零假设,其中假设所有细胞类型都相同,因此具有相同的均值和熵。然后提出了一个统计量ΔS作为总熵差,来衡量观察到的平均表达与零假设下的平均表达的偏差。在 E-test 特征选择的标准下,Δ S较大的基因往往更具有细胞类型特异性,并将通过 E-test 保留用于下游模型训练(图 1b ))。
训练:假设不同基因的表达丰度在给定的细胞类型中呈多项式分布,从而对不同基因的表达进行建模。多项式模型中每个基因的参数(x)可以通过上述在每种细胞类型中标准化后的平均基因表达直接估计。

遮挡不关键部分后图如下
image.png

这些标准化参数(x)也代表了给定细胞类型中每个基因的表达概率(图 1c和方法)。为训练集中的每种细胞类型建立了多项式模型,构成了 SciBet 的训练模型。
注释:对于要由 SciBet 注释的未知细胞,我们使用其信息基因的表达谱,并计算所有多项式模型的似然函数。SciBet 选择模型在描述 RNA 谱分布时实现最高似然/预测能力的细胞类型(图 1d)最大似然估计计算如下:
image.png

总结:可以说写的非常清晰了,预处理就是常规的标准化,特征选择的方法是利用假设检验,利用熵值选择能拒绝原假设的gene,完成特征选择。选择出的特征在不同类型的细胞中表达量均不同,假设选出的特征是3个基因,这样对每个单一的细胞类,xG1+yG2+z*G3=细胞类型1(这是个多项式所以说”假设不同基因的表达丰度在给定的细胞类型中呈多项式分布“),其他细胞类型同理,知道xyz的值,就能特定的确定一个细胞的类型。这样就能对每个细胞类型建模。有了模型,训练就是个非常容易,的,根据最大似然估计可以确定具体应该是哪个类型。

Performance assessment by cross-validation
为了对这种多标签分类问题进行定量测试,应用了交叉验证

总结:机器学习的标准流程

Real-world applications of SciBet
使用一个或多个 scRNA-seq 数据集进行训练和测试

总结:机器学习的标准流程

Web-based implementation of SciBet
可以直接下载训练好的模型,新的数据直接拿来预测就行:从 19个公开数据库收集的约 100 个注释良好的 scRNA 数据集,使用 SciBet 为每个数据集生成训练模型。训练模型非常小,可以与本地 SciBet 软件包一起轻松下载。例如,具有 100 种细胞类型和 1000 个特征基因的模型的大小将不超过 1 MB。
web服务:不需要测序文件上传到远程服务器。 用户可以使用我们的web服务器上传自定义参考或测试数据的单元类型预测。 对于需要长时间数据传输的大型查询数据集,我们还提供了一个轻量级的独立包,通过一个简单的命令来本地构建基于web的工具。 通过这种方式,数据文件可以在本地直接在浏览器中读取和处理,从服务器传输到浏览器的模型只需要很小的尺寸,从而达到了前所未有的速度和方便。

总结:没看太懂这个的意思,但是看他们给的网站,上传的似乎不是测序文件,而是处理后的基因表达文件,上传之后可以直接出图看结果,比较方便。
image.png

这还搞出个中文来,button上也没见写,回头研究下。
image.png

method

总结:一些数学公式,基本是熵和概率论的东西,用了些sklearn的方法,回头代码也能看一下,了解下哪部分是新实现的,哪部分是改造的,哪部分是直接调包。

文章总结:是非常有意思的一篇文章,分类器的设计方法也比较有趣,理解起来不算太难但是实际实现的话工作量很大,对数学和信息论方面要很了解才行。总之这个实现很有含金量,应用价值也有,希望之后可以用这个工具工作,后续也希望写篇文章解读下源码,看看哪部分是新实现的,哪部分是改造的,哪部分是直接调包,对自己之后写方法也是个借鉴。

虽然看能看懂 ,但是如果让自己做则很难,主要还是对建模,统计,信息论,机器学习还是不够烂熟于心,总结下文章中最主要的三个核心:用假设检验和熵选择基因,用选出的基因构建多项式来代表细胞类型,最后用假设检验验证输入的数据具体应该属于哪个类型
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 216,142评论 6 498
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 92,298评论 3 392
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 162,068评论 0 351
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 58,081评论 1 291
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 67,099评论 6 388
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 51,071评论 1 295
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,990评论 3 417
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,832评论 0 273
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 45,274评论 1 310
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,488评论 2 331
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,649评论 1 347
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 35,378评论 5 343
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,979评论 3 325
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,625评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,796评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,643评论 2 368
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,545评论 2 352

推荐阅读更多精彩内容