课堂笔记
RNA-Seq
-
标准测序
6G数据, 6X1024X1024X1024 位(个碱基)
→虽然会有波动,会受一些随机误差影响,但是reads数很多,coverage很高,表达量的测量很准
-
overview:
- RNA-Seq
① RNA →mRNA → 反转录为DNA
② 打断为fragments
③ 加上adapter
④ pcr扩增
⑤ 建库(双链,两条链+ - 都有)
⑥ 基因测序(双端vs单端测序)
illumina 双端测序,一端测正链,一端测负链 - mapping 到基因组上
① De novo assembly: reads 能overlap的,拼起来就行
② annotation based
③ genome guided assemly - 计总reads数
- 统计:差异表达分析
- system biology
- RNA-Seq
基因组测序更关注序列
RNA-Seq更关注 有多少reads map到了参考基因组,即关注表达量junction reads (2%-3%)
会体现内含子没表达导致的reads空缺,即还能体现剪切方式poly A end reads( poly A加尾
RNA上才有,加尾酶加上的,在mapping时会导致错配
PolyA 与 rRNA
rRNA 占90%,rRNA没有poly A尾巴
法1. poly A selection
- 用oligo-dT磁珠将A提出来,去得很干净, 可以衡量RNA降解
- 3' Bias:如果RNA发生降解,3’端测到的表达量多,5’端少
- 但不能去掉无polyA的RNA和 pre-mRNA
法2. 最后通过探针把rRNA去掉
- 因为有时候要看别的RNA,通过沉降等方法,去掉核糖体,会留下游离核糖体,且有些RNA不在核糖体里,会留下约30%rRNA
- 在基因组上,rRNA的基因有很多,能mapping到很多地方,要丢掉这些reads
stranded vs non-stranded
- 基因组上 很多基因是3’尾巴对3'尾巴
- RNA在基因组上有方向5’→3’,当3'端基因重合,将无法确定reads是源于哪个基因
- stranded:只测固定方向的reads,将read1反向互补,确定RNA方向,确定其来自DNA正链还是负链
- 基因表示图: 从细到粗——内含子,非编码区,编码区,| 起始子
PCR duplication
- 做RNA-seq 表达量分析时 去掉PCR重复
- 找突变,如果duplication很多,会让软件以为该处真的有突变(表达量很高的时候要注意,不要误杀)
fastqc software
quality control
-
ASCII-33 表示quality score :0-255
节约磁盘空间,质量得分(可能占用两个字符)按一定规则(Phred+33或Phred+64)被转换为单个字符表示。 - MAPQ = -10lgP碱基错误率
- pred scale碱基错误率= 10^^(-score/10)
- adapter content:
有时候会测到接头adapter上去,导致mapping不到基因组,mapping率很低
有的软件能去掉adapter,得到不等长的fragment reads,如果软件只能等长,就选取能接受的长度(选择adapter的量和reads长度可接受的长度,权衡)
Hisat2
能够将junction reads mapping到基因组上
uniquely mapped reads
- 做表达量分析的时候,只留唯一mapping的reads即可(有的基因有同源基因,有的有拷贝,或有重复序列)
- unmapped reads 比如环状RNA,或有编辑过的RNA,基因融合了的,突变了的,是否重要取决于研究目的,要挖掘信息!
output of mapping
Sam or Bam(二进制) 格式
一行一个read,每行11列
sam格式讲解:https://www.jianshu.com/p/386f520e5de1
sam flag explain:https://broadinstitute.github.io/picard/explain-flags.html
cigar:会告诉我们是否是junction reads
如 ‘6M237N44M’: 6个连续mapping,237个跳过,44个连续mappingsamtools: linux专门读取bam或sam的软件
samtools -q xx -f xx
可以view,filter,sort,index, merge ,rmoce PCR duplication, Tview, SNP calling
数据可视化
- UCSC genome browser:把自己的track放在云端,给UCSC一个链接就能和UCSC的数据结合起来看
- IGV tool:本地看
基因表达量测定:看表达出多少转录本
长的RNA打断出来的reads多,因此要有衡量标准
- RPKM:看有多少测序出的reads,reads per kilobase per million reads mapped,理论上只与表达量有关,表达量与基因长度、测序深度无关
- FPKM:RPKM算法优化 fragments per million reads mapped ,fragments = cDNA insert
- TPM: Transcript per million 看有多少转录本,RSEM软件汇报
详细讲解:https://www.jianshu.com/p/1940c5954c81
差异表达基因
- cutdiff: 分析GTF文件
- EdgeR : 较流行较好,
FC 差异倍数
CPM平均表达量:表达量多,次数多 即概率里counts多
红 差异显著
黑 不显著
splicing analysis
看junction reads的拼接方式,可以定量剪切方式,counts数很重要!
软件 rMATs
splicing factors
谁让剪切方式产生差异的CLIP-seq
ChIP-Seq:https://zhuanlan.zhihu.com/p/295399497
CLIP、RIP-seq:https://www.jianshu.com/p/fff90b2e8f2d
RNA编辑
!! 一点点错配都有可能出现大问题! 软件算法不完善等都可能出大问题!用的时候要搞清楚原理,否则很容易出问题
samtools → IGV 可视化
conda install samtools=1.9
conda的samtools版本太低,用的时候会报错,装的时候指定好版本号
samtools view -q 30 -f 64 xx.bam |more
txt结果 用excel 打开 open 可以把IJC_SAMPLE_1, SJC_SAMPLE_1, IJC-SAMPLE_2 ,SJC_SAMPLE_2改为字符串类型