COSG:细胞注释界的万金油

为何选择COSG

对于单细胞数据的分析,细胞类型注释永远都是重中之重,细胞注释不对,那一切等于白费。近些年,众多生物信息工作者着重开发单细胞细胞类型注释的工具,但想要精准识别细胞类型仍然是相当困难的。今天Immugent就来给大家介绍一款新的非常轻便的细胞注释软件:COSG工具,是于2022年3月在线发表于 Brief Bioinformatics :Accurate and fast cell marker gene identification with COSG这篇文章上,COSG有Python和R版本,这意味着无论是 Seurat 还是 Scanpy 使用者都可以使用这个工具。小编感叹!!!

image.png

为何细胞类型注释困难?

目前各种单细胞技术的广泛应用,让精准去分细胞类型显得尤为重要。常规细胞注释使用细胞标记基因鉴定的常用方法通常依赖于统计检验来寻找在数据集中感兴趣的细胞和所有其他细胞之间有差异表达的基因。然而,由于统计检验倾向于识别两组之间具有系统差异的候选基因,当将一种类型的细胞(靶细胞)与多种其他类型的细胞(非靶细胞)进行比较时,通过统计方法选择的顶级差异表达基因可能不是真正的细胞标记物。而且在很多疾病状态下,如肿瘤组织中,有很多的免疫细胞和基质细胞类型(如下图),这对准确的进行细胞注释无疑是巨大挑战。

image.png

目前来说,我们大多数的单细胞分析方法(和Seurat和Scanpy)中寻找差异基因的方法都是基于统计方法计算欧氏距离的。因此我们在做细胞注释的时候经常会发现,差异基因并不能作为细胞的marker进行细胞注释!为了解决上述统计方法带来的问题,就要来介绍介绍基于COSine相似性的标记基因识别(COSG),这是一种以更准确和更快的速度识别细胞标记基因的方法。

image.png

为什么要叫COSG呢?

简单来说,COSG呢就是咱们数学里面经常用到的COSine啦,那选择COSine为什么适用于marker基因的识别呢?理论知识说起来!余弦相似度利用向量空间中向量之间的夹角的余弦值来度量两个n维向量之间的关系。与测量两个向量之间位置差异的欧氏距离不同,余弦相似度比较两个向量的方向,这意味着如果两个基因具有相同的表达模式,但一组细胞之间的表达丰度尺度不同,余弦相似度分析认为它们是等效的。余弦值不依赖于向量的模,在单细胞分析的背景下就是不依赖于基因的表达量,而依赖于基因的表达模式。因此,余弦相似性是与表达规模无关的,对于识别靶细胞中特异性表达的基因应该更加敏感。说完以后大部分人可能还是一脸懵。不过没关系,了解一下,咱们会用也是可以的呀!

COSG工作原理

image.png

COSG旨在为预先分类的细胞群识别适当的marker基因。COSG的输入数据应该首先通过其他方法进行归一化。归一化后,COSG生成基因表达矩阵,进行聚类分群。基于现有的分群情况,COSG首先对每个细胞类群鉴定出一个marker gene,这个基因的表达特征是:只在目标细胞类群中表达,且不在其它任何一个细胞类群中有表达,这个基因就是每个细胞类群最理想的基因marker了。假设一共有k个细胞,那么每个基因的表达情况就是一个k维的向量(在每个细胞中的表达量作为一个维度),那么对于每个基因和每个细胞类群,COSG会计算该基因在目标细胞类群中与该目标类群marker gene的表达向量之间的夹角;再计算该基因在其它细胞类群中与其它细胞类群的marker gene的表达向量之间的夹角。最终鉴定出来的目标细胞类群的基因marker应该有如下特征:与目标细胞类群的marker gene表达向量之间的夹角越小越好(即有相似的表达模式)而与其它细胞类群的marker gene表达向量之间的夹角越大越好(即有相反的表达模式)。接下来文章,将COSG在单细胞转录组等数据上进行了验证,这部分大家可以参考一下原文进行了解哦!

讨论

余弦相似度的COSG算法,其核心思想是通过比较基因在n维细胞空间的向量夹角大小来描述基因在所有细胞中表达模式的相似性,具有更高的准确性和更高的细胞类型特异性,并且COSG可以作为一种跨不同数据模式的细胞标记基因识别的通用方法,能应用于大规模数据集,相比于其他现有方法在准确性和计算效率上具有明显优势。

©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 230,501评论 6 544
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 99,673评论 3 429
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 178,610评论 0 383
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 63,939评论 1 318
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 72,668评论 6 412
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 56,004评论 1 329
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 44,001评论 3 449
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 43,173评论 0 290
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 49,705评论 1 336
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 41,426评论 3 359
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 43,656评论 1 374
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 39,139评论 5 364
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 44,833评论 3 350
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 35,247评论 0 28
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 36,580评论 1 295
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 52,371评论 3 400
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 48,621评论 2 380

推荐阅读更多精彩内容