转录组 RNA-seq

课堂笔记

RNA-Seq

  • 标准测序
    6G数据, 6X1024X1024X1024 位(个碱基)
    →虽然会有波动,会受一些随机误差影响,但是reads数很多,coverage很高,表达量的测量很准
  • overview
    1. RNA-Seq
      ① RNA →mRNA → 反转录为DNA
      ② 打断为fragments
      ③ 加上adapter
      ④ pcr扩增
      ⑤ 建库(双链,两条链+ - 都有)
      ⑥ 基因测序(双端vs单端测序)
      illumina 双端测序,一端测正链,一端测负链
    2. mapping 到基因组上
      ① De novo assembly: reads 能overlap的,拼起来就行
      ② annotation based
      ③ genome guided assemly
    3. 计总reads数
    4. 统计:差异表达分析
    5. system biology
  • 基因组测序更关注序列
    RNA-Seq更关注 有多少reads map到了参考基因组,即关注表达量

  • junction reads (2%-3%)
    会体现内含子没表达导致的reads空缺,即还能体现剪切方式

  • poly A end reads( poly A加尾
    RNA上才有,加尾酶加上的,在mapping时会导致错配

PolyA 与 rRNA

rRNA 占90%,rRNA没有poly A尾巴

法1. poly A selection

  • 用oligo-dT磁珠将A提出来,去得很干净, 可以衡量RNA降解
  • 3' Bias:如果RNA发生降解,3’端测到的表达量多,5’端少
  • 但不能去掉无polyA的RNA和 pre-mRNA

法2. 最后通过探针把rRNA去掉

  • 因为有时候要看别的RNA,通过沉降等方法,去掉核糖体,会留下游离核糖体,且有些RNA不在核糖体里,会留下约30%rRNA
  • 在基因组上,rRNA的基因有很多,能mapping到很多地方,要丢掉这些reads

stranded vs non-stranded

  • 基因组上 很多基因是3’尾巴对3'尾巴
  • RNA在基因组上有方向5’→3’,当3'端基因重合,将无法确定reads是源于哪个基因
  • stranded:只测固定方向的reads,将read1反向互补,确定RNA方向,确定其来自DNA正链还是负链
  • 基因表示图: 从细到粗——内含子,非编码区,编码区,| 起始子

PCR duplication

  • 做RNA-seq 表达量分析时 去掉PCR重复
  • 找突变,如果duplication很多,会让软件以为该处真的有突变(表达量很高的时候要注意,不要误杀)

fastqc software

quality control

  • ASCII-33 表示quality score :0-255
    节约磁盘空间,质量得分(可能占用两个字符)按一定规则(Phred+33或Phred+64)被转换为单个字符表示。
  • MAPQ = -10lgP碱基错误率
  • pred scale碱基错误率= 10^^(-score/10)
  • adapter content:
    有时候会测到接头adapter上去,导致mapping不到基因组,mapping率很低
    有的软件能去掉adapter,得到不等长的fragment reads,如果软件只能等长,就选取能接受的长度(选择adapter的量和reads长度可接受的长度,权衡)

Hisat2

能够将junction reads mapping到基因组上

uniquely mapped reads

  • 做表达量分析的时候,只留唯一mapping的reads即可(有的基因有同源基因,有的有拷贝,或有重复序列)
  • unmapped reads 比如环状RNA,或有编辑过的RNA,基因融合了的,突变了的,是否重要取决于研究目的,要挖掘信息!

output of mapping

Sam or Bam(二进制) 格式
一行一个read,每行11列
sam格式讲解:https://www.jianshu.com/p/386f520e5de1
sam flag explain:https://broadinstitute.github.io/picard/explain-flags.html

sam flag explain
如上图,可看出 有意义基因为负链上的基因

sam flag explain:不是很好,quality会很低
  • cigar:会告诉我们是否是junction reads
    如 ‘6M237N44M’: 6个连续mapping,237个跳过,44个连续mapping

  • samtools: linux专门读取bam或sam的软件
    samtools -q xx -f xx
    可以view,filter,sort,index, merge ,rmoce PCR duplication, Tview, SNP calling

数据可视化

  • UCSC genome browser:把自己的track放在云端,给UCSC一个链接就能和UCSC的数据结合起来看
  • IGV tool:本地看

基因表达量测定:看表达出多少转录本

长的RNA打断出来的reads多,因此要有衡量标准

  • RPKM:看有多少测序出的reads,reads per kilobase per million reads mapped,理论上只与表达量有关,表达量与基因长度、测序深度无关
  • FPKM:RPKM算法优化 fragments per million reads mapped ,fragments = cDNA insert
  • TPM: Transcript per million 看有多少转录本,RSEM软件汇报
    详细讲解:https://www.jianshu.com/p/1940c5954c81

差异表达基因

  • cutdiff: 分析GTF文件
  • EdgeR : 较流行较好,
    FC 差异倍数
    CPM平均表达量:表达量多,次数多 即概率里counts多
    红 差异显著
    黑 不显著

splicing analysis

看junction reads的拼接方式,可以定量剪切方式,counts数很重要!
软件 rMATs

RNA编辑

!! 一点点错配都有可能出现大问题! 软件算法不完善等都可能出大问题!用的时候要搞清楚原理,否则很容易出问题

samtools → IGV 可视化

conda install samtools=1.9
conda的samtools版本太低,用的时候会报错,装的时候指定好版本号
samtools view -q 30 -f 64 xx.bam |more
txt结果 用excel 打开 open 可以把IJC_SAMPLE_1, SJC_SAMPLE_1, IJC-SAMPLE_2 ,SJC_SAMPLE_2改为字符串类型

最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 215,133评论 6 497
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 91,682评论 3 390
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 160,784评论 0 350
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 57,508评论 1 288
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 66,603评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,607评论 1 293
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,604评论 3 415
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 38,359评论 0 270
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,805评论 1 307
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 37,121评论 2 330
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 39,280评论 1 344
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,959评论 5 339
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,588评论 3 322
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 31,206评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,442评论 1 268
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 47,193评论 2 367
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 44,144评论 2 352

推荐阅读更多精彩内容