细胞注释
是单细胞分析中很关键的环节,初期会比较痛苦,做多了才会悟出一些规律。
我公众号早期写过几篇细胞注释相关的帖子:
- 单细胞分析实录(7): 差异表达分析/细胞类型注释
- SingleR如何使用自定义的参考集
除了写代码,我其实也用过三个不错的网站去辅助单细胞数据的注释,自己用了很长时间,觉得确实不错,所以想推荐给大家。
不包含CellMarker
,主要是我个人觉得它不好用,经常输入一个marker,会出来好几种细胞类型,让人很难选择(也可能是我的用错了?)。比如我输入一个CPA3,它会显示:
如果不熟悉这个基因就很难选了。(实际上这是Mast cells很典型的marker基因)
再后来它的网站打不开,我就没怎么用了。
下面介绍这三个网站,以一个实际分析中产生的表格为例(细胞类型已经被我mask掉了,能一眼看出来的算老手了,哈哈,那就假装不知道吧)
PanglaoDB
网址:https://panglaodb.se/search.html
输入基因名之后(以第一个基因TPSAB1
为例),就会出现一些统计信息:
- 有多少
高表达该基因
的cluster被注释成了对应的celltype
- 在不同数据集中,该基因表达排名第几(越靠前越好)
Enrichr
网址:https://maayanlab.cloud/Enrichr/
其实这是一个做富集分析
的网站,非常好用。(不过大部分人都只熟悉clusterProfiler)
我今年才发现这个网站上线了细胞注释
的板块,整体不错。细胞注释有一种思路是仿照富集分析来做的,只不过把常用的通路基因集换成了细胞类型marker基因集。
用法很简单,丢进去差异基因就可以了。下面我复制粘贴示例表格的前100个基因(按照avg_log2FC排序,具体数量不固定,一般选几十上百就可以)
点击Cell Types
它给的参考数据库比较多,需要
鉴别
一下,这里我只列举了两个参考数据库。
CellTypist
网址:https://www.celltypist.org/
用法很简单,按照要求上传文件即可(如果是免疫细胞,其他选项不用改;如果是非免疫细胞,还需要Select Model)
GitHub
上面也有python和命令行用法(写得很清楚),一般细胞数多了,我就用命令行去跑,速度也挺快:
https://github.com/Teichlab/celltypist
我个人觉得单细胞软件自动注释的结果好坏更取决于参考集的质量,比起软件本身。第三个工具免疫细胞注释结果比较准,非免疫细胞一般。
我现在已经不用singleR注释免疫细胞了,主要是这个工具的命令行实在太简单了,基本一两行就OK。
不管是用啥软件对每个cell自动注释,我都只是作为参考,最终注释会在cluster水平
上重新定义。比如cluster0有99%的细胞注释成A,1%的细胞注释成B,若确认只有cluster0高表达A的marker基因(比如画小提琴图;这一步叫手动注释),最终这些细胞都会被注释成A。——(手动、自动相结合的注释策略)
好啦,先介绍这些,我们下期再见!点击”阅读原文“,可以评论哦~