生信数据分析,即生物信息学数据分析,是一个涵盖了生物学、计算机科学、数学和统计学等多个领域的交叉学科。它主要利用计算机算法和统计方法对生物学数据进行处理、分析和解释,以揭示生物分子、细胞、组织和生物体等各个层次的生物学规律和机制。
生信常见分支分为以下几类:
- (1)转录组——目前医学疾病研究最多的就是转录组,如果你的课题组是研究疾病的,那大概率就是转录组。转录组顾名思义就是转录,这是生物中心法则中的内容,DNA经过转录过程产生RNA,所以转录组一般研究的就是RNA(包括:mRNA,lncRNA,miRNA等等)。
- (2)基因组——很多学校校内课题组是研究基因组的,例如:病毒基因组,植物基因组等。基因组顾名思义就是基因,会从基因本身出发去探究在基因层面的发生的各种变化。
- (3)蛋白组—— 蛋白组顾名思义是研究蛋白的,蛋白是通过RNA经过翻译修饰等过程生成的,因此很多课题组会联合蛋白组和转录组一起研究XX疾病的发展过程,这样的联动通常被称为是多组学研究,虽然成本相较于普通转录组来说更高,但如果能联动上,那可靠性会增加。
- (4)代谢组—— 代谢组研究的是代谢物,代谢物是什么?是生物体内源性的一些小分子化合物,这些化合物通常与人体复杂的功能有关。通常来说也是会联动转录组和蛋白组一起去做研究。
- (5)微生物组—— 研究的是微生物层面的变化,这个分支有的涉及环境方面,有的也跟医学疾病相关,因为据研究表明某些疾病的发生与肠道微生物密不可分的,所以有的课题组就是在研究肠道微生物与疾病的联系。
- (6)临床表型特征研究—— 这一分支就更有意思了,通常是医院那边的科研工作者的研究关注点,主要的研究的是人体生理生化指标与XX疾病的关联。这些生理生化指标就是常规医院检测的那些东西,例如:血压,体重,血红蛋白含量,白细胞含量等。
注意注意注意:与本贴关联的是转录组相关的全部流程
本帖主要是为生信转录组数据分析的各个分析点提供跳转链接——简单说就是提供了一个目录供大家选择自己想要的知识点可以直接跳转
关联的转录组数据分析的分析点包括但不限于:转录组上游分析,数据处理,差异分析,WGCNA,机器学习算法,预后模型构建,PPI,孟德尔随机化,单细胞分析等,以及后续的数据可视化部分。(**当然目前更新的内容还没那么多,具体的分析点可见下方信息,点击可直接跳转到相关分析点**)
生信转录组分析可以分为三大类:上游分析,下游分析和数据可视化。
(1)上游分析——就是对公司测序得到的fastqc文件进行质控,比对,表达定量等过程,最终得到了基因原始的表达矩阵(列为样本,行为基因,里面的数值就是每个基因在样本中的RNA表达量,但此时并不知道该数据能反应什么信息)。
(2)下游分析——又被称为是数据挖掘过程,上游分析得到的表达矩阵之后,研究者自然想从基因的表达与疾病/性状相关联,获取到发生变化的那部分基因,并研究其可能具有的功能。根据这个需求,自然而然地衍生出来了很多的算法和方法,比如说:差异分析,富集分析.......等。
(3)数据可视化——就是将下游分析得到的结果用图形的形式展现出来,方便读者更好的从中提炼出重要信息。
个人对于生信转录组下游分析的总结就是:通过各种算法一步步筛选并缩小基因范围,最后针对几个比较重要的基因(3-5个)研究其功能及潜在的机制,最后通过各种数据可视化方式呈现在文章中。
那么就有小伙伴会问了:如何挑选重要的基因??或者说是我怎么知道哪些基因比较重要??
举个栗子:一开始拿到表达矩阵有上万个基因,这些基因在不同样本中表达都不一样,尤其是疾病组和对照组间,绝对会存在一部分基因差异变化非常大,而研究者重点要关注的就是这部分差异变化较大的基因,因此就要用到差异分析(DESeq2,limma等)做筛选,这样最终的结果就是从上万个基因中挑选出来了部分基因(几十到几百不等),这部分基因相对于全部基因来说就是比较重要的那部分。
举这个栗子就很好体现了筛选并缩小基因范围这句话,其他的算法大多也都是干这种事,比如:交集韦恩图,机器学习,单多因素cox等。
那么假如现在经过重重筛选得到了几个重要的基因,接下来就需要结合其他的算法来分析这些基因所具有的功能,比如:富集分析,相关性分析,靶向药物预测.......等,而这就是在研究基因所具有的功能及其潜在机制。
注:如果基础薄弱的同学可以从转录组上游分析开始看起,上游分析和下游分析其实都是串起来的,只有先有了上游,才能进一步去分析,学会了下游分析之后就可以进阶学一下数据可视化了
- 1. 转录组上游分析
* 1.1 软件的安装
* 1.2 数据的准备
* 1.3 质控及数据过滤
* 1.4 序列比对
* 1.5 表达定量
- 2. 转录组下游分析
* 2.1 数据处理
+ 2.1.1 自测序数据
+ 2.1.2 TCGA数据库
+ 2.1.3 GEO数据库——芯片数据
+ 2.1.4 GEO数据库——高通量测序数据
* 2.2 差异分析
+ 2.2.1 limma差异分析
+ 2.2.2 DESeq2差异分析
* 2.3 GO+KEGG富集分析
* 2.4 WGCNA分析—加权基因共表达网络
* 2.5 机器学习算法筛选基因
+ 2.5.1 lasso机器学习算法
+ 2.5.2 SVM机器学习算法筛选基因
+ 2.5.3 boruta机器学习算法筛选基因
+ 2.5.4 boruta机器学习算法训练模型
+ 2.5.5 xgboost机器学习算法筛选基因
* 2.6 单因素cox筛选预后相关特征
* 2.7 预后模型
+ 2.7.1 lasso模型
+ 2.7.2 多因素cox模型
+ 2.7.3 多因素cox模型(加逐步回归)
+ 2.7.4 随机生存森林模型
+ 2.7.5 预后模型的验证
* 2.8 单基因ROC分析
* 2.9 单基因Wilcoxon秩和检验
* 2.10 人工神经网络模型
* 2.11 列线图模型(诊断)
* 2.12 免疫浸润分析
+ 2.12.1 CIBERSORT算法
+ 2.12.2 ssGSEA算法
+ 2.12.3 xcell算法
+ 2.12.4 quantiseq算法
+ 2.12.5 timer算法
+ 2.12.6 mcp_counter算法
+ 2.12.7 epic算法
* 2.13 GSEA富集分析
* 2.14 GSVA富集分析
* 2.15 基因突变分析
* 2.16 染色体定位分析
* 2.17 两样本孟德尔随机化分析
* 2.18 单细胞转录组分析
+ 2.18.1 质控
+ 2.18.2 整合
+ 2.18.3 PCA和UMAP/TSNE聚类降维
+ 2.18.4 细胞注释
+ 2.18.5 不同细胞间差异分析
+ 2.18.6 细胞通讯
+ 2.18.7 拟时序分析
+ 2.18.8 细胞周期分析
+ 2.18.9 细胞GSVA富集分析
- 3. 转录组数据可视化(初级)
* 3.1 差异火山图绘制(常规)
* 3.2 差异热图绘制(常规)
* 3.3 GO+KEGG富集分析柱状图(常规)
* 3.4 GO+KEGG富集分析点状图(常规)
* 3.5 GO+KEGG富集分析方块图(常规)
* 3.6 GO+KEGG富集分析网络图(常规)
* 3.7 交集韦恩图(常规)
* 3.8 基因表达箱线图(常规)
* 3.9 基因表达小提琴图(常规)
* 3.10 相关性热图(常规)
- 4. 转录组数据可视化(nature级)
* 4.1 GO+KEGG富集分析八卦图(nature级)
* 4.2 GO+KEGG富集分析圈图(nature级)
* 4.3 GO+KEGG富集分析进阶网络图(nature级)
* 4.4 交集花瓣图(nature级)
* 4.5 交集韦恩图(nature级)
* 4.6 基因表达云雨图(nature级)
* 4.7 相关性棒棒糖图(nature级)
* 4.8 相关性弦图(nature级)
* 4.9 相关性蝴蝶图(nature级)
* 4.10 相关性热图(nature级)