1.文库:DNA文库严格来讲应称作cDNA文库,中文名称是基因文库,是指某生物基因组中所有可表达的基因片段,经mRNA反转录后获得相应的cDNA的集合,将这些cDNA的集合经转入和克隆后贮存于受体细胞群落中,这个受体细胞群落即构成该生物的cDNA文库。教科书定义:某种生物的基因组转录的所有mRNA经反转录产生的各种cDNA片段分别与克隆载体重组,贮存在一种受体菌克隆子群体之中,这样群体称为cDNA文库。途径:1.将某种生物的基因组的转录部分,通过mRNA反转录,产生大量相应的cDNA片段。2.将这些不同的cDNA片段与载体结合形成各种相应DNA重组体。3.将DNA重组体导入宿主细胞。注意:因为转入过程是随机的,因此宿主细胞要有一定的数量,以确保能够获得所有类型的DNA重组体。4.经克隆后,这些cDNA片段就贮存在一个受体细胞的群落中,其中每个受体细胞都含有一种或几种cDNA,而整个群落则含有这个生物全部的cDNA,这个群落就构成了这种生物的cDNA文库。用途:由于cDNA文库包含了该生物所有的可表达基因片段,因此可随时筛选出需要的目的基因片段。不必再通过PCR制备,可以节省时间和成本,提高效率。cDNA文库与基因组文库的区别:途径不同:cDNA文库是经mRNA反转录cDNA获得的;基因组文库是将完整的DNA经限制性内切酶切割得到的。内容不同:cDNA文库只含有部分基因组信息,即可编码能转录的那部分基因片段;基因组文库包含了基因组内所有的基因片段。
2.基因芯片(genechip)(又称DNA芯片、生物芯片)的原型是80年代中期提出的。基因芯片的测序原理是杂交测序方法,即通过与一组已知序列的核酸探针杂交进行核酸序列测定的方法,在一块基片表面固定了序列已知的靶核苷酸的探针。当溶液中带有荧光标记的核酸序列TATGCAATCTAG,与基因芯片上对应位置的核酸探针产生互补匹配时,通过确定荧光强度最强的探针位置,获得一组序列完全互补的探针序列。据此可重组出靶核酸的序列。
名词解释:
Read depth Read深度:一个样本测序得到的reads数;容易和基因组测序的覆盖度 (多少基因组区域被测到了)和测序深度混淆 (单个核苷酸被测到的次数或所有核苷酸被测到的平均深度)。
Short-read 短读长:测序得到的长度最大是500 bp的reads,常见的测序片段长度为100-300 bp;本文中的短读长测序片段代表测到的mRNA片段和降解了的mRNA。
Long-read 长读长:测序得到的超过1000 bp的reads,本文中代表全长或近乎全长的mRNA。
Direct RNA sequencing (dRNA-seq): 直接测序RNA而非cDNA的测序技术,通常用于测序全长或近全长的mRNA 。
Multi-mapped reads 多重比对的reads:从转录组同源区域测序得到的reads,不能精确确认其转录本或基因组的来源。
Synthetic long reads 合成long reads:通过组装多个短读长得到长读长的方法。
唯一分子标识符(UMIs):在扩增前,构建RNA-seq文库的时候加入的短序列或barcodes,理想情况下每条转录本结合一个唯一的标识符,含有此标识符的reads都来源于此转录本,定量时只计算一次。可以用来降低RNA-seq的定量偏好性,在RNA起始量低的单细胞实验中尤为适用。
Read length 读长:单个测序reads的长度,short-read RNA测序得到的长度通常是50-150 bp。
Sensitivity 敏感性:样本中多大比例的转录本会被测到,敏感性越高,这一比例越高。它受样本处理、文库制备、测序和计算偏好性的影响。
Specificity 特异性:度量差异表达转录本被正确鉴定出的比例的方法,它受样本处理,文库制备,测序和计算偏好性的影响。
Duplication rates 重复Reads比率:比对到转录组相同位置的的测序reads的比例。在RNA-seq文库中,一些转录本可能有高的重复率,因为它们在样本中表达水平高。高表达的基因的重复率很高,而低表达基因的或许有着最小的重复率。由此RNA-seq面临着一个挑战,该技术中大部分重复可能是高表达转录本带来的真实信号,而另一些则是由于扩增和测序偏好性造成的。
Single-end sequencing 单端测序 (SE):只测序cDNA片段的一端,因其费用低,常用于只关注差异基因表达的项目中。(NGS基础 - 高通量测序原理)
Paired-end sequencing 双端测序 (PE):cDNA片段两端分别测序,可以测序到cDNA的更多碱基,更好的识别剪接位点,常于差异基因表达分析项目。
生物学重复:对生物来源不同的样本的多次检测,比如来自三个个体的组织,用于捕获生物个体自身的变化;这个变化要么是待研究的对象,要么是噪音。相较之下,技术重复是对同样的样本做重复的操作—比如,对一个组织做三次处理。
Expression matrix 表达矩阵:差异表达RNA-seq项目的核心数据文件。每一行代表一个RNA,比如基因或者转录本。每一列是一个测序的样本。矩阵中的数值是每个RNA的reads数。这些可能是对转录异构体的计数估计,并通常在后续的分析前先进行标准化转化。
Spike-in control 内参:按特定浓度添加到样品中的外源核酸库。它们通常是预先合成的不同浓度的RNA,用于监测反应效率和技术方法的偏差和假阴性结果。
Spatialomics 空间转录组学:能保留给定样本(通常是组织切片)中每个转录本的空间信息的转录组分析方法。
Nascent RNA 新生RNA:刚刚转录出来的RNA,与已经加工并运输到细胞质的RNA相对应。
Translatome 翻译组:细胞、组织或生物体中正在翻译成蛋白质的mRNA集合。
Structurome 结构组:细胞、组织或生物体中RNA的二级和三级结构集合。
Interactome 互作组:细胞、组织和生物体中分子相互作用的集合,包括有RNA-RNA或者RNA-蛋白质的相互作用。
Differential gene expression (DGE) 差异基因:两个实验组中表达显著变化的基因。