本文内容
本文为笔者个人的学习笔记,包括以下内容
- TCGA count数据下载
- count数据预处理,标准化
- 差异mRNA,miRNA, lncRNA
- 绘制热图,火山图
- ceRNA网络分析,输出文件到cytoscape
- 识别出哪些基因是lncRNA, miRNA, mRNA, pseudogene
- 运行过程中存在的问题及解决办法
基本背景知识
注
:为方便阅读,增加读者对文章内容的理解,关于miRNA背景知识转载至维基百科 ,仅供交流学习使用,版权归原作者所有。
miRNA
小分子核糖核酸(英语:microRNA,缩写为miRNA)又译微核糖核酸,是真核生物中广泛存在的一种长约21到23个核苷酸的核糖核酸(RNA)分子,可调节其他基因的表达[1][2]。miRNA来自一些从DNA转录而来,但无法进一步翻译成蛋白质的RNA(属于非编码RNA)。miRNA通过与目标信使核糖核酸(mRNA)结合,进而抑制转录后的基因表达[3],在调控基因表达、细胞周期、生物体发育时序等方面起重要作用。在动物中,一个微RNA通常可以调控数十个基因。
这些RNA是从初级转录本(primary transcript)出来的,也就是pri-miRNA,转变成为称为pre-miRNA的茎环结构,最后成为具有功能的成熟miRNA。
miRNA的命名规则
- miR-前缀后面所跟着的数字,代表命名的顺序,比如,miR-124比miR-456发现得早。
- “miR-”代表成熟的miRNA、“mir-”代表pre-miRNA和pri-miRNA、“MIR”代表编码miRNA的基因[5]。
- miRNA几乎全是独一的编码顺序,但对于拥有一两个碱基不同的则会被标上字母以示,例如,miR-124a与miR-124b。 若成熟的miRNA相同,但pre-miRNA和pri-miRNA和编码他们的基因来自于不同的基因组,则使用数字来表示,例如,mir-194-1和mir-194-2表示两个pre-, pri-miRNA剪切后的成熟miRNA是完全相同的,但却是两个不同的来源。
- 前缀的三个字母代表了不同的种族来源,例如,hsa-miR-194代表miRNA来源于人类,oar-miR-124来源于绵羊。
- 对于形成pre-,pri-miRNA茎环的两端miRNA, 通常一端在数量上远远超过另一端。数量优势的一端往往称为guide strand,而另一端被称为passenger strand,通常被大量降解,用号来表示,例如miR-124和miR-124。
lncRNA基本背景
长的非编码RNA(长的ncRNA,lncRNA)是一种类型的RNA,定义为转录与长度超过200 个核苷酸的是不翻译成蛋白质。[1]这种有点任意的限制将长ncRNA与小的非编码RNA区分开来,例如microRNA(miRNA),小干扰RNA(siRNA),Piwi相互作用RNA(piRNA),小核仁RNA(snoRNA)和其他短RNA。[2] 长介入/基因间非编码RNA(lincRNA)是lncRNA的序列,其不与蛋白质编码基因重叠。[3]