主要内容
数据下载
数据整理
质控和数据过滤
PCA分析
TSNE分析
Maker基因
注释细胞类型
细胞轨迹分析
GO富集分析和圈图
KEGG富集分析和圈图
转录因子网络分析 表格里面有
1.简介
单细胞测序可以获得单个细胞的异质性,解决样品量太少无法测序。
步骤:单细胞分离,测序,数据分析。
有点:每个细胞的基因蛋白表达水平的差异。
2.数据下载
GEO官网
3.数据整理
前面放样品名称,后面是细胞的编码。
4.质控数据过滤
测序序列越多,测序深度越大
测序深度越大,测到的基因数目越多,基因测完为止。就不成正相关了。
把波动值最大的基因挑选出来。这一堆应该就是差异基因。
5.PCA分析
绝对值越大这个基因就与PC_1相关性越大
分为是否有正负值。主成分分析就是下降维度。
PCA热图就是与前面相关性表达的基因做的。
PC1-PC20就能代表1500个基因的量
P值的含义:P值越小得到的实际相关的基因也就越多。
本教材选择P小于0.5的成分分析
6.TSNE 聚类分析
放在PCA之后,PCA为其铺垫,因为单独做TSNE时间太长了。
B细胞所在Cluster10 后面分析都在10
能够得道那个细胞属于哪个簇
聚类分析黄的就是代表某个簇的主要表达的基因。最主要的maker基因
maker基因
cluster0 和其他所有cluter比较所得到的P值。确定maker基因。
logFC(绝对值大于0.5进行过滤)大于零表示上调,小于零表示下调。都是在簇中。矫正后的P值(p_val_adj)要小于0.05.
注释
这个还是比较难的,结合文献,测序的细胞等等。软件,R包等。
细胞轨迹分析
细胞轨迹的起点如何确定。根据在组织中最多的那个细胞类型确定。
一开始是同一种细胞,慢慢的出现各种细胞。要根据文献和实际的经验。
基因名字转换基因ID
GO分析
看maker基因富集在那个词语上。有什么功能。
GO圈图
KEGG富集分析
通路的富集