第0章、绪论
02、生物信息学的研究内容
一、生物分子数据的收集与管理
生物分子的类型:目前生物信息学研究的生物分子主要集中在核酸和蛋白质,因此生物分子的类型包括蛋白质、DNA(基因组DNA、线粒体DNA、叶绿体DNA)和RNA(mRNA、tRNA、rRNA、miRNA、lncRNA 等不同类型的RNA)
生物分子的数据类型:包括序列信息、结构信息、表达信息、定位信息、相互作用信息等。对于DNA分子来说,主要研究其序列信息、结构信息、片段注释信息等;对于RNA来说,主要研究其表达信息、结构信息、定位信息等;对于蛋白质来说,主要研究其结构信息、定位信息、相互作用信息等
分子数据的收集方法:序列信息的收集包括一代测序、二代测序、蛋白质序列测定等方法。结构信息的收集包括X-ray、核磁共振(NMR)、高效液相色谱技术(HPLC)等方法。表达信息的收集包括二代测序、定量PCR、芯片杂交、Northern Blot、Western Blot等。定位信息的收集主要包括原位杂交、融合蛋白标记、荧光共振能量转移(FRET)等方法。相互作用信息的收集主要包括酵母杂交技术、凝胶阻滞实验(EMSA)等
数据管理:包括所收集的生物信息等数据提交给已有数据库,或者构建本地数据库等
二、数据库的搜索与序列比较
数据库的分类:
按照数据来源进行分类:
一级数据库:主要收集实验获得的原始数据
二级数据库:在一级数据库的基础上加工而成的数据库
目前的数据库大多同时收录原始数据及在原始数据基础上进行注释的信息,因此兼具一级、二级数据库的特征
按照收录的数据类型进行分类:
核酸数据库:如GenBank、ENA、DDBJ等
蛋白质序列数据库:如Uniprot等
蛋白质结构数据库:如PDB等
专有数据库:
线虫基因组数据库AceDB、拟南芥数据库tair
非编码RNA数据库,如ncRNAdb、 miRBase等
蛋白质序列二级结构数据库,如Prositeo等
数据库的搜索方法:依据各数据库网站提供的帮助文件(介绍数据库的搜索方法)进行搜索
序列比较:通过序列比较寻找序列的插入缺失等异同;通过序列比较寻找同源蛋白并推测未知基因的功能;通过序列比较可进行进化分析、寻找特定结构域等多方面的应用。序列比较可以使用数据库在线比较,如三大核酸数据库(GenBank、ENA、DDBJ)均提供序列的blast搜索比较方法,也可以使用软件的本地比较,如Cluster软件、DNAstar软件等
三、基因组序列分析
基因组序列组装:通过不同软件将测序所得的短Reads组装成Contigs或Scaffolds,随后再对Gaps进行生物信息学修补
基因预测:包括基因(gene)、启动子(promoter)、多聚A位点(polyA)、mRNA、tRNA、rRNA、snoRNA、miRNA、重复序列等序列模块的预测
基因注释:对基因进行NR、Swissprot、KEGG、InterProScan、COG等数据库的注释,预测这些基因潜在的功能。对tRNA、rRNA、miRNA等非编码RNA进行比对,找出已知的非编码RNA及可能新的非编码RNA。对于重复序列,要能区分这些重复序列的类型,如Alu序列(哺乳动物基因组中SINE家族的一员,约有50万份拷贝)、 微卫星序列等。对于miRNA,还要预测其调控的潜在靶基因
功能基因分析:对感兴趣的基因进行基因家族分析,分析基因的共有或特有结构域,对不同物种的相似基因进行进化分析等
比较基因分析:比较基因组里的插入、缺失、SNP位点、染色体易位、基因数量的变化、共有基因、特有基因等
四、基因表达数据的分析与处理
基因表达数据的分析,依据数据测定方法的不同,分析方法也会有很大的差别
Northern Blot:抽提RNA后,电泳、杂交、显影/拍照,通过软件对条带取灰度值进行分析来获得基因表达差异数据。该方法灵敏度低,可能要对放射性同位素进行操作等,其应用受到一定的限制
定量PCR数据:抽提RNA后,定量PCR,先通过定量扩增曲线确定各样本的Ct值,然后再通过经典的2-ddct方法进行基因差异表达计算。该方法灵敏度高,操作相对容易,是使用最多的基因定量检测方法之一
芯片数据:抽提RNA后,通过标记、芯片杂交、扫描、取灰度值获得原始芯片数据,对原始数据进行质控分析及归一化处理,再使用ArrayTools、R软件等对芯片数据进行基因差异表达分析。芯片可同时检测成千上万的基因,因此该方法对于转录组研究使用较多,尤其适合基因组信息比较明确、并有商业化芯片的物种,如人、小鼠、拟南芥等模式生物
二代测序数据:抽提RNA后,建库并进行二代测序(RNA-seq),将所获得的原始Reads信息转换为各基因的RPKM值(此过程相当于对数据的归一化处理),再运用R+软件、cufflinks等软件对基因进行差异表达分析。该方法既可研究已知基因,亦可研究未知基因,因此对于基因组信息有限的物种的转录组研究应用非常广泛
五、蛋白质结构预测
蛋白质结构可通过实验方法直接测定,如利用X光(X-ray)晶体学、核磁共振(NMR)、 荧光光谱、紫外光光谱等方法直接测定
X光晶体学:X光射入晶体后会发生衍射,衍射线的分布和强度与晶体结构密切相关, 类似晶体指纹,因此该方法是目前使用最多的蛋白晶体结构研究方法。实验过程需要先对蛋白质过表达并创造条件使其形成结晶,再通过X光衍射测定衍射数据,对衍射数据进行分析并构建结构模型。该方法测定结果比较准确,但是获得良好的蛋白结晶相对困难
核磁共振:其原理是原子核在强磁场作用下,吸收外来电磁辐射产生核能级的跃迁,从 而产生核磁共振现象。物质的分子结构与所处的化学环境对会对NMR信号有影响,因此,在化学环境一定时,即可研究物质的分子结构,尤其适合进行有机化合物结构研究。实验过 程需要将蛋白质溶于一定的介质中,并置于强磁场条件下获得NMR图谱,将所得图谱与对照图谱进行比较分析,即可推断蛋白质的结构。该方法在溶液状态下对蛋白质结构进行测定,所测定的结构更符合生理状态下的真实结构,其应用越来越受到重视
蛋白质结构预测大概有两类方法。第一是通过与现有己知结构的蛋白质进行序列比较,通过序列的相似性来推断待测序列的结构,常用软件有interProScan、SWISS-MODEL等;第二是重新预测,即将已知的蛋白质结构分拆来构建模型构件数据库,然后通过对待测蛋白质序列进行构件分析,并最终预测其可能的结构
六、非编码RNA的研究
非编码RNA的种类包括最早发现的tRNA和rRNA、当前研究较热的非编码小RNA(包括miRNA、piRNA、snoRNA)以及长非编码RNA(lncRNA)等
tRNA与rRNA是最早发现的非编码RNA,其功能研究得比较清楚,对于新测序物种, 将各tRNA及rRNA预测岀来即可较容易地推测其功能。目前在脊椎动物中发现了22种tRNA。真核生物的rRNA包括28S、18S、5.8S、5S四种;原核生物的rRNA包括23S、16S、5S三种
miRNA是目前研究较热的非编码小RNA,长度在24bp左右,对于miRNA测序(miRNA-seq)来说,需要分析已知的miRNA、预测未知的miRNA、研究不同样本间miRNA 的差异表达、预测各miRNA的靶基因、对靶基因进行聚类分析等。常用的miRNA序列信息数据库为miRBase,成熟的miRNA发卡结构分析软件为mfbld,成熟的靶基因预测工具为TargetScan、picTar、psRNATarget
lncRNA是指长度大于200nt的长链非编码RNA,明确功能的lncRNA屈指可数。对于lncRNA测序结果来说,要分析lncRNA的种类,预测新的lncRNA,研究其作用靶基因及作用方式等
七、表观遗传学研究
表观遗传学(epigenetics)是研究在基因的核昔酸序列组成不变的条件下,其基因表达的可遗传变化。常见的表观遗传现象如DNA甲基化(DNA methylation)、组蛋白修饰、基因组印记(genomic imprinting)、母体效应(maternal effects)、基因沉默(gene silencing)RNA剪辑(RNA editing)等
在表观遗传学方面的生物信息分析中,经常会涉及到的内容有:CpG岛分析及DNA甲基化位点预测、miRNA参与调控的DNA甲基化分析和这些miRNA的寻找及靶基因预测、siRNA设计、RNA可变剪辑分析、亲代与子代的基因组或转录组比较研究等