RNA-seq转录组数据分析思路
数据产生
-测序的平台和测序的类型
-测序基本原理
1.single end 、2.pair end测序、3.mate pair测序
-实验设计
数据处理
-数据误差来源
-质量控制软件FastQC结果解读
-数据过滤软件Trimmomatic
有参转录组序列比对hisat2
-不同软件的比较
-常用高通量序列比对算法
-基因组
1.STAR、2.
-转录本
RSEM
无参转录组
-转录本从头拼接原理
-拼接方法 Trinity
表达定量
-RNA-seq常用的统计定量单位
-基因组比对
1.Htseq-Count、2.FeatureCount
-转绿本比对
Rsem
无比对快速定量
kallisto
数据如何分析
差异表达
-Deseq标准化原理
-结果解读
8.富集分析
-Go常用网站和工具
-通路富集分析
9.数据可视化展示
-IGV
-基因浏览器
实战演练
数据预处理
构建目录
-原始数据目录
-基因组文件
-注释信息文件
-结果文件
参考序列下载
-参考基因组fasta
去相关数据库下载参考基因组的fasta文件
-注释信息 gtf、gff
ensembl、jgl等数据库,araport数据网站
原始数据上传
检测数据完整性md5值
md5sum *gz>md5.txt
md5sum -c md5.txt #比对已经有点数据
质量控制
-安装conda使用fastQC
which fastqc #查找是否有该软件
fastqc 序列文件名.fastqc.gz 进行处理
fastqc *.gz #进行多个处理
或者
for i in ls *gz
;do fastqc $i ;done #for循环实现批处理
或者(将文件放入后台并行处理)
ls *.gz |xargs -I [] echo 'nohup fastqc [] &' >fastqc.sh
bash fastqc.sh
Multiqc进行多个质控结果可视化
multiqc ./ #在当前文件下进行比对
质量过滤-Trimmomatic(需要java的环境)
对illumina测序文件的接头进行开头结尾进行切除
接头的序列信息不同,采用不同的命令进行处理
illumina Single End/illumina Paired End : TruSeq2-SE.fa/TruSeq2-PE.fa
TruSeq Universal Adapter/TruSeq Adapter,index: TruSeq3-SE.fa TruSeq3-PE.fa
接头参数的选择
TRUE/FALSE
双端测序用TRUE
序列比对
-无参分析:转录本拼接——trinity
-以转录本和基因组分别进行比对
转录本
RASE
基因组
-STAR实例
1.建立索引
STAR --runThreadN 6 --runMode genomeGenerate
--genomeDir arab_STAR_genome(比对的文件输出目录)
--genomeFastaFiles /目录/文件 (比对的参考文件)
--sidbGTFfile /目录/文件 (比对的注释文件)
--sidbOverhang 149^C (比对reads的长度-1)
2.进行比对
3.查看比对文件
-Hisat2
表达定量分析
-处理原始比对文件
picard、samtools
将sam文件变成bam文件
-先比对再定量STAR+RSEM/STAR+HTSeq
构建准备环境
参考基因组转录本文件
查看
主要关注的是基因和转录本的信息。
-非比对的定量表达分析Kallisto(free-alignment)
构建索引
定量
观察.tsv文件
差异分析
featureCounts+STAR软件能够提升表达定量的速度
conda install subread
查看文件内容
表达定量结果转换为表达矩阵
到RESM的输出文件目录操作
生成基因表达矩阵
查看之后剔除表达量为0的命令
进入R之后操作...
-edgeR
-DESeq2
。。。。。。。
由于配置环境未成功,后续操作做不了。
详情参见于:
RNA-seq转录组数据分析入门实战07-差异分析_哔哩哔哩_bilibili