R plus 生物~Bioconductor

刘小泽写于18.9.7

各行各业数据呈爆炸式增长,大量的数据等待被处理,R语言就是一个利器,可以说是做数据分析必备的编程语言。当强大的R与包罗万象的生物结合,再一次刺激了R的迅猛发展。随着NGS测序的普及,R语言的生信专业社区Bioconductor诞生,开启了生物信息的R语言时代。
好工具,用起来,首先要了解生物数据与R之间的关联

生物知识回顾

  • 基因有三类:第一类编码序列,编码蛋白【转录+翻译功能】;第二类只有转录没有翻译功能【tRNA+rRNA】;第三类不转录基因,调控基因表达【启动子、操纵子】
  • 基因组:单倍体细胞中包含编码序列和非编码序列的全部DNA【核基因组+线粒体基因组+叶绿体基因组】
  • 狭义转录组:mRNA,代表样本整体基因表达水平,一般称为“表达谱”【真正的表达谱是蛋白质组信息,研究手段是质谱】。通常用基因芯片、RNA-seq
  • 广义转录组:
    • 非编码ncRNA:有三类【按长度划分】
      • 小于50nt的small RNA【长度单位:单链叫nt,双链叫bp】:miRNA、siRNA、piRNA【small RNA序列短,同源性高,一般采用二代测序检测】
      • 50-500nt:rRNA、tRNA、snRNA、snoRNA
      • 大于500nt:mRNA-like ncRNA、不带polyA尾的ncRNA
    • microRNA:也叫miRNAs,20-25nt,初级转录物-》核酸酶剪切加工-〉组装进RNA诱导的沉默复合体-》互补配对识别靶mRNA-〉根据互补程度不同指导沉默复合体降解靶mRNA或者阻遏mRNA翻译
  • DNA、蛋白互作:Chromatin immuopre-cipitation, ChIP,主要应用于:DNA序列转录因子结合位点(Binding sites)识别 ,如启动子、增强子等顺式作用文件(Cis-acting element)的识别;DNA甲基化、组蛋白修饰、核小体定位
  • DNA甲基化:甲基化DNA免疫共沉淀测序(Methylated DNA immunoprecipitation sequencing, MeDIP-seq)、甲基化DNA(蛋白)结合域测序(Methylated DNA binding domain sequencing, MBD-seq)和亚硫酸氢盐测序(Bisulfite sequencing, BS-seq)

基因表达分析

基因表达检测方法

  • 实时荧光定量PCR(Quantitative real time PCR, qRT-PCR)
  • 基因(表达谱)芯片(Microarray)
  • 表达序列标签(Expressed Sequence Tag, EST)
  • 基因表达系列分析(Serial Analysis of Gene Expression, SAGE)
  • 转录组测序

PCR技术应用最为成熟,灵敏度高,特异性强,但其缺点是通量较小;基因芯片方便快捷,适合临床诊断及个体基因组分析;基因测序技术通量高,但周期长、成本高

基因芯片是什么

基因芯片又称DNA微阵列,按照检测物的不同,可分为DNA芯片、RNA芯片等,其中DNA芯片又可分为单核苷酸多肽性(SNP)芯片、比较基因组杂交(CGH)芯片等。

原理:基于A、T;C、G互补理论,将已知序列的核酸探针与未知序列的核酸序列进行杂交检测DNA,并且DNA探针以显微打印的方式大规模集成于芯片(类似于计算机的硅芯片)表面。杂交后通过计算机对杂交信号的检测分析,得出样品的遗传信息(基因序列及表达的信息)。分析单核苷酸变异多态性性价比较高。
基因芯片原理

主流寡聚核苷酸芯片主要有:Affymetric、Agilen、Illumina公司

基因表达数据

矩阵表示:行名代表一个基因不同条件/样本的表达,列名代表某个条件/样本的所有基因表达。数据代表表达水平。那么一般分析什么?

  • 不同样本/处理中哪些基因表达有显著差异?
  • 基因之间有什么共有的功能,或者参与哪些共同代谢途径?
  • 不同的处理中,哪些基因变化一致,它们受到上游哪些基因的调节,或者它们控制下游哪些基因的表达?
  • 哪些基因表达存在样本特异性,也就是说通过他们的表达可以判断样本的状态(如:细胞的增殖、分化、凋亡、应激、癌变等)

主要的分析

主要有差异显著性分析和时间序列分析,后者主要是测定基因多个时间点的表达量,然后聚类+主成分分析寻找共调控基因

表达显著性分析就是为了找差异基因(DEG)。那么怎样判断基因间是有差异的呢?常用的有3种算法:一是倍数分析(无统计假设),计算每个基因在不同条件/样本的比值,再与阈值比较;二是用统计模型T检验等方法,计算差异表达的置信度p值,以0.05或者0.01作为阈值;三是机器学习方法,利用贝叶斯模型、随机森林等。分析的结果从来不用担心没有差异基因,而是要考虑差异基因可能存在很多,从几十个到上百个不等,那么如何展示他们呢,一张简单粗暴的大表格吗?肯定是不行的!

需要把上游的这些差异基因再进行注释、分组,一个类别就相当于一个GO term,然后看这几大类的区别,肯定比看几十甚至上百个基因或蛋白的差异要更加直观,这就是富集分析,包括GO分析,KEGG分析,GSEA分析等。其中重点研究的基因集叫做前景基因,需要比对的所有基因集叫背景基因,前景是背景的子集。例如转录组数据中的对照组和处理组,处理与对照之间的差异基因就是前景基因,两组所有的表达基因就是背景基因。富集分析的目的就是根据不同功能,把各个分子进行分类,然后使用超几何分布检验进行分析。当然使用不同工具,得到的结果不同,现在clusterProfiler要比DAVID的结果更多。

GO分析(Gene Ontology)

包括GO terms(标签)+GO annotations(注释)。

  • GO terms存在于由基因本体联合会(Gene Ontology Consortium)建立的数据库中,对基因和蛋白功能进行限定和描述,每个注释信息都有一个GO ID。它由两部分构成,第一部分都是GO,第二部分是以0开头的7位数字,例如GO:0016021

    GO是一个情报员,他负责调查:包括基因的分子功能:“干啥的”(molecular function,MF),指分子所执行的任务【如与碳水化合物结合或ATP水解酶活性等】、细胞组分:“活动区域”即产物发挥作用的位置(cellular component,CC)【如核仁、端粒和识别起始的复合物】、参与的生物过程:“近期有什么动静”(biological process,BP)【嘌呤代谢、有丝分裂等】GO调查完就给被查对象贴标签term

  • GO annotations即GO注释,是针对基因产物的而不是基因,表示某些基因的产物是是非编码RNA、蛋白质还是大分子等。这里GO就相当于一个中间媒介,它对基因进行定义GO term,然后其他各个数据库使用GO的定义方法,对它们的基因产物进行标注,例如一个数据库的EntrezID或SYMBOL与GO数据库进行ID对应,或者用一个数据库的序列与GO term进行对应。

在一个GO注释中,例如,一个基因的产物是细胞色素c(cytochrome c),那么这个基因的产物就会被一个分子功能术语(Molecular Function)描述为氧化还原酶活性(oxidoreductase activity ),被生物过程(Biological Process)描述为氧化磷酸化(oxidative phosphorylation ),被细胞成分(Cellular Component )描述为线性体基质(mitochondrial matrix )和线粒体内膜(mitochondrial inner membrane )~引用自“读研笔记”

pathway代谢通路

GO负责分门别类,而pathway负责把每一类对应到具体的代谢网络中。研究pathway的原因是:生物学问题中设定一个“蝴蝶效应”假设:1个Pathway上游基因的改变,会导致下游相关基因改变,从而改变通路中大量基因的表达。现在常用是KEGG,但是它收录的都是是已有的研究结果,而这些信息,还没有完善

熟悉一下Bioconductor

Bioconductor拥有上千个扩展包,主要有实验数据包、软件包、注释数据包三大类,例如白血病的ALL包就是利用Affymetrix进行芯片分析的数据包;但最重要的当属软件包

软件包:

  1. 注释:GO、Pathway等

  2. 微阵列板块(Assay Domains):处理芯片数据,Bioconductor支持主流的Affymetrix的商业化单色寡聚核苷酸芯片,也支持用户定制的双色cDNA芯片。芯片数据一般流程:数据预处理、差异表达基因筛选、聚类分析。这里的包有以下几部分:

    • 比较基因组杂交(Comparative Genomic Hybridization, CGH)
    • 细胞水平检测(Cell Based Assays)
    • 染色质免疫共沉淀芯片(ChIPchip)
    • 拷贝数变异(Copy Number Variants)
    • CpG岛(CpGIsland)
    • 差异表达(Differential Expression)
    • DNA甲基化(DNA Methylation)
    • 外显子检测(Exon Assay)
    • 基因表达(Gene Expression)
    • 遗传变异性(Genetic Variability)
    • 单核苷酸多态性(SNP)
    • 转录
  3. 测序技术(Assay techs)

    • 芯片技术(Microassay)
    • 微孔板检测(Microtitre Plate Assayå)
    • 质谱(Mass Spectrometry)
    • 基因表达系列分析(SAGE)
    • 流式细胞仪(Flow Cytometry)
    • NGS
  4. 数据处理:基因芯片数据预处理(背景矫正、归一化、质控)、芯片分析、基因间关系、样本间关系、识别差异基因

    聚类分析(Clustering)、分类(Classification)、富集分析(Enrichment)、多组比较(Multiple Comparison)、预处理(Preprocessing)、质控、序列匹配、时间序列分析(Time Course)、可视化、网络分析


欢迎关注我们的公众号~_~  
我们是两个农转生信的小硕,打造生信星球,想让它成为一个不拽术语、通俗易懂的生信知识平台。需要帮助或提出意见请后台留言或发送邮件到Bioplanet520@outlook.com

Welcome to our bioinfoplanet!

©著作权归作者所有,转载或内容合作请联系作者
  • 序言:七十年代末,一起剥皮案震惊了整个滨河市,随后出现的几起案子,更是在滨河造成了极大的恐慌,老刑警刘岩,带你破解...
    沈念sama阅读 213,014评论 6 492
  • 序言:滨河连续发生了三起死亡事件,死亡现场离奇诡异,居然都是意外死亡,警方通过查阅死者的电脑和手机,发现死者居然都...
    沈念sama阅读 90,796评论 3 386
  • 文/潘晓璐 我一进店门,熙熙楼的掌柜王于贵愁眉苦脸地迎上来,“玉大人,你说我怎么就摊上这事。” “怎么了?”我有些...
    开封第一讲书人阅读 158,484评论 0 348
  • 文/不坏的土叔 我叫张陵,是天一观的道长。 经常有香客问我,道长,这世上最难降的妖魔是什么? 我笑而不...
    开封第一讲书人阅读 56,830评论 1 285
  • 正文 为了忘掉前任,我火速办了婚礼,结果婚礼上,老公的妹妹穿的比我还像新娘。我一直安慰自己,他们只是感情好,可当我...
    茶点故事阅读 65,946评论 6 386
  • 文/花漫 我一把揭开白布。 她就那样静静地躺着,像睡着了一般。 火红的嫁衣衬着肌肤如雪。 梳的纹丝不乱的头发上,一...
    开封第一讲书人阅读 50,114评论 1 292
  • 那天,我揣着相机与录音,去河边找鬼。 笑死,一个胖子当着我的面吹牛,可吹牛的内容都是我干的。 我是一名探鬼主播,决...
    沈念sama阅读 39,182评论 3 412
  • 文/苍兰香墨 我猛地睁开眼,长吁一口气:“原来是场噩梦啊……” “哼!你这毒妇竟也来了?” 一声冷哼从身侧响起,我...
    开封第一讲书人阅读 37,927评论 0 268
  • 序言:老挝万荣一对情侣失踪,失踪者是张志新(化名)和其女友刘颖,没想到半个月后,有当地人在树林里发现了一具尸体,经...
    沈念sama阅读 44,369评论 1 303
  • 正文 独居荒郊野岭守林人离奇死亡,尸身上长有42处带血的脓包…… 初始之章·张勋 以下内容为张勋视角 年9月15日...
    茶点故事阅读 36,678评论 2 327
  • 正文 我和宋清朗相恋三年,在试婚纱的时候发现自己被绿了。 大学时的朋友给我发了我未婚夫和他白月光在一起吃饭的照片。...
    茶点故事阅读 38,832评论 1 341
  • 序言:一个原本活蹦乱跳的男人离奇死亡,死状恐怖,灵堂内的尸体忽然破棺而出,到底是诈尸还是另有隐情,我是刑警宁泽,带...
    沈念sama阅读 34,533评论 4 335
  • 正文 年R本政府宣布,位于F岛的核电站,受9级特大地震影响,放射性物质发生泄漏。R本人自食恶果不足惜,却给世界环境...
    茶点故事阅读 40,166评论 3 317
  • 文/蒙蒙 一、第九天 我趴在偏房一处隐蔽的房顶上张望。 院中可真热闹,春花似锦、人声如沸。这庄子的主人今日做“春日...
    开封第一讲书人阅读 30,885评论 0 21
  • 文/苍兰香墨 我抬头看了看天上的太阳。三九已至,却和暖如春,着一层夹袄步出监牢的瞬间,已是汗流浃背。 一阵脚步声响...
    开封第一讲书人阅读 32,128评论 1 267
  • 我被黑心中介骗来泰国打工, 没想到刚下飞机就差点儿被人妖公主榨干…… 1. 我叫王不留,地道东北人。 一个月前我还...
    沈念sama阅读 46,659评论 2 362
  • 正文 我出身青楼,却偏偏与公主长得像,于是被迫代替她去往敌国和亲。 传闻我的和亲对象是个残疾皇子,可洞房花烛夜当晚...
    茶点故事阅读 43,738评论 2 351

推荐阅读更多精彩内容

  • 8种特殊建库测序 8种特殊建库测序 1. RNA-seq 2. 外显子测序 3. small RNA-seq 4....
    wangchuang2017阅读 13,123评论 2 92
  • 参考学习《R语言与Bioconductor生物信息学应用》第六章 前言 Y叔的公众号biobabble发过一篇【听...
    王诗翔阅读 13,640评论 0 49
  • SNP芯片的原理 Illumina的SNP芯片原理Illumina的SNP生物芯片的优势在于:第1,它的检测通量很...
    wangchuang2017阅读 8,361评论 0 32
  • 明明午后还与人倚着栏杆安静交谈,转眼几千公里以外。原来地域和距离只是个眼神的交换,几度温差的改变。分别容易到让人无...
    伊个人阅读 234评论 0 0
  • at一次性定时任务 1:安装at命令:sudo apt install at 2:启动at:servic...
    随玉而安_gao阅读 453评论 0 0