在四周之前,我写了一篇推送一个月能通过转录组入门生信吗?,于是开启了我的‘四周通过实战入门转录组’计划。现在四周结束了,我对这个计划进行一个阶段性的总结。
答疑解惑
首先要感谢在过去的四周里,30多位加入了我们的付费答疑群的小伙伴。因为他们的支持,让我和我的另一个小伙伴能够坚持下去,当然我们也尽心尽力地回答了他们提出的疑问。举几个例子,
学习计划
在四周时间里,我们制定了每一周的学习计划,这里也分享给有需要,愿意自己花时间去检索遇到问题的小伙伴。
第一周的目标是配置环境,学习路径如下
1. 导读视频(可不看): 「学转录组入门生信」我们为什么需要用到Linux环境_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
2.1 Windows 配置WSL: 「转录组入门生信」在Windows10上配置一个Linux环境_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
2.2 MacOS配置环境: 「学转录组入门生信」Mac用户应该如何正确配置生信分析环境_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
3. 学习基础的Linux命令
4. 学习Vim: 「生信基础课」学习Linux下vim进行文本编辑_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
5. 使用miniconda配置环境: 「学转录组入门生信」如何用conda安装分析需要的软件_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
6. 使用wget/curl/prefetch下载数据: 「学转录组入门生信」如何在Linux的终端里下载生物信息学数据_哔哩哔哩 (゜-゜)つロ 干杯~-bilibili
学有余力:
1. 整理conda安装的软件的软件说明书
2. 明确不同版本基因组序列的差别
3. 理解基因组序列和注释文件之间的关系
4. 了解Linux的管道符号"|"和管道命令
第二周的目标是基于二代测序获得表达量矩阵,学习路径如下
1. 总结常见数据格式: https://www.bilibili.com/video/av59481324
2. FastQ数据质量控制: https://www.bilibili.com/video/av59513720
3. 获取/建立索引: https://www.bilibili.com/video/av59769386
4. 数据比对: https://www.bilibili.com/video/av59772790
5. 基因/转录本定量: https://www.bilibili.com/video/av60006241
6. multiqc整合上游分析质控信息: https://www.bilibili.com/video/av60006455
最终目标是拿到4个样本的表达量矩阵
学有余力:
1. 整理和转录组质控相关文献
2. 了解不同转录组测序技术(miRNA-seq, lncRNA-seq)的FastQC展示结果
第三周根据表达矩阵获取差异基因分为两个阶段
第一阶段:R语言入门
本周我们需要学习如何安装R语言以及如何入门,随后我们需要学习R语言的基础命令和数据类型,接着我们学习如何安装R包,查阅帮助文档;同时我们需要学习如何使用R project管理我们的项目,整合我们的数据,最后在DEseq2包的帮助下,我们使用上周学习获得的表达矩阵计算得到差异基因:
- R语言简介及R&Rstudio安装
- 什么是R,为什么要用R
- R语言下载安装
- IDE的作用,Rstudio初识
- 在线资源,博客资源
- R语言基础
- 熟悉Rstudio的操作界面
- R语言的基本命令学习
- 设置R的启动环境
- CRAN镜像设置
- 文件的读入和写出
- R语言入门
- R语言的数据类型与数据结构
- R包学习及安装
- 后续需要用的包简介及安装
- Tidyverse, Deseq2, ClusterProfile, biomaRt
- 创建脚本与保存
- R project的使用
第二阶段:R包使用及进阶学习
- 使用Deseq2包分析RNA-seq数据得到差异基因
- 读入数据,创建phone type数据,构建dds对象
- 得到分析结果,过滤差异基因
- 练习
- 试着使用R语言求一个数列中的最小值
- 构建一个随机矩阵,使用FPKM的计算公式理解FPKM
第四周根据差异基因进行富集分析及解读。本周的学习简单来说可以分为两个阶段:
第一阶段:一代富集分析——GO和KEGG
- 使用biomaRt包注释差异基因信息
- FPKM的计算
- 理解gene id
- 转化ENSEMBL id到gene symbol及gene features
- org.**.eg.db包的学习
- 使用ClusterProfile包对差异基因进行富集分析
- ClusterProfile学习
- Over Representation Analysis简介
- ORA算法简介
- GO、KEGG分析及结果解读
- 数据库解读
- 构建orgdb
- 富集结果解读
- 作图及导出
- ggplot2包初识
- ggplot2模仿clusterProfiler作图
第二阶段:二代富集分析——GSEA
- 输入文件的格式解读与构建
- Expression dataset file (res, gct, pcl, or txt)
- Phenotype labels file (cls)
- Gene sets file (gmx or gmt)
- Chip (array) annotation file (chip)
- GSEA参数的选择与基因集的构建
- Molecular Signatures Database学习
- GSEA下载和界面操作
- 参数的选择(通俗解读)
- 常见报错原因解读
- 结果解读
- NES
- FDR value
- 生物学意义解析
- 数据库的选择
- 没有对应物种数据库时的选择
资料分享
这次课程,我们原计划是录制简单的操作视频(不带讲解),但是目前来看,一不小心就超出了预期,
上游处理:https://space.bilibili.com/249108235
下游分析: https://space.bilibili.com/6447454/
对于课程用到的资料和数据,我上传了部分到百度云盘上,链接是 https://pan.baidu.com/s/1rg98EWrZXIRUHcfElTkhjg 密码:x0ek 。余下的部分是代码和一些PDF课件,我整理到加入付费答疑群赠送的知识星球,后续会慢慢更更新到百度盘。
如何参与
有两种方式,一种是跟着我们上面的视频和学习计划,遇到的问题都可以通过搜索引擎来解决,我就是这样子入门生信,但是在初期会比较痛苦,有些时候甚至都不知道自己想要问什么问题。
另一种是我们提供了一个收费答疑群,定价为299,解答实战过程中你会遇到的问题。
加群方式,扫描二维码加我好友,之后转账299,我拉你进学习群(上一期学员由于时间原因没时间跟着进度学习,希望重新开始新的四周,可以直接和我说下)。