基因课FTP地址:ftp://http://gsx.genek.tv/2020-3-10%E7%9B%B4%E6%92%AD%E4%B8%80%E4%B8%AA%E5%AE%8C%E6%95%B4%E7%9A%84%E8%BD%AC%E5%BD%95%E7%BB%84%E9%A1%B9%E7%9B%AE/
听张旭东老师的课
需要的R软件包
- Rsubread
- limma
- edgeR
featureCounts
- featureCounts只能算出counts, FPKM值或TPM值需要自己根据公式标准化算
张老师的R定量package
-
run-featurecounts.R
- R脚本解释器(第一行)最好写
#!/usr/bin/env Rscript
—— 功能,自动识别环境中的解释器 - argparser软件包实现对代码的封装,自动解析要输入的参数及参数传递,并生成-help 界面(python中也有)
- 运行命令
Rscript script/run-featurecounts.R -b xxx.bam -g xxx.gtf -o xxx
# 给个名字就好,不需要后缀,会自己加后缀;
输出一个.count文件和一个.log文件
合并表达量矩阵
- 新建文件夹,名为
3.merge_result
, 内含合并脚本 - 合并readsCount矩阵
输出gene.counts.matrix
要用于差异分析(一般差异分析软件内部会进行标准化过程)
可能有小数 - 合并标准化后的矩阵
输出genes.TPM.matrix - TPM+TMM标准化矩阵
输出genes.TMM.EXPR.matrix文件
TPM为样本内标准化
TMM为样本间标准化
所以标准化流程为 readsCount → TPM标准化 → TPM+TMM标准化
用于差异分析外的分析:共表达分析、PCA分析、画Heatmap - 用小程序搞定
- perl脚本 abundance_estimates_to_matrix.pl
- 用法:
perl abundance_estimates_to_matrix.pl --est_method featureCounts xxx1.count xxx2.count ...... xxxn,count
或perl abundance_estimates_to_matrix.pl --est_method featureCounts *.count
或 将要读取的文件路径放在同一文件genes.quant_files.txt文件下,perl abundance_estimates_to_matrix.pl --est_method featureCounts --quant_files genes.quant_files.txt --out_prefix genes
run_TMM_scale_matrix.pl
接下来
- 达到表达矩阵之后首先做的不是差异分析,应该先做样本关系分析,如样本聚类分析、样本相关性分析、PCA分析
题外话
- 基因组与比较基因组注释
Braker
Maker
PASA - bash 换行 “\”后面不能有空格
- RSEM软件功能类似于featureCounts,有参无参都能用,通常用在无参转录组