登录注册写文章

第3周：利用大豆小RNA图谱鉴定来自编码基因区的phasiRNA

TOP生物信息

第3周：利用大豆小RNA图谱鉴定来自编码基因区的phasiRNA

原文来源：Arikit S , Xia R , Kakrana A , et al. An Atlas of Soybean Small RNAs Identifies Phased siRNAs from Hundreds of Coding Genes[J]. The Plant Cell Online, 2014, 26(12):4584-4601.

理解为产生phasiRNA的PHAS位点与编码蛋白的基因区有重叠可能更准确。
侵删

小RNA是一类普遍存在的，多功能的抑制物，包括（1）microRNA（miRNA），由mRNA形成的茎环结构加工而成; （2）小干扰RNA（siRNA），在植物中通常由需要依赖RNA的 RNA聚合酶的过程衍生。我们构建并分析了大豆小RNA的表达图谱，鉴定了超过500个产生21个核苷酸的phased siRNAs（phasiRNA;来自PHAS位点）的位点，其中483个与注释的蛋白质编码基因有重叠。通过整合miRNA与RNA end（PARE）数据的分析，检测到127个PHAS位点上的20个miRNA靶标。 PHAS位点的主要类别（208，占41％）与NB-LRR基因相对应；这些小RNA中的一部分优先在根瘤中积累。在PHAS位点中，还观察到TAS3的新代表和非经典相位模式。由miR4392触发的非编码PHAS位点优先在花药中积累；预测phasiRNA靶向转座因子，在大豆生殖发育中具有峰值丰度。因此，phasiRNA在双子叶植物中显示出巨大的多样性。我们鉴定了新的miRNA并评估了miRBase中记录的大豆miRNA的准确性，显着改善了大豆miRNA注释，促进了miRBase注释的改进并鉴定了高严谨性的新miRNA及其靶标。

文章做了些什么：

鉴定产生phasiRNA的位点，并注释（提供位置信息）
能识别PHAS区域的miRNA触发物
phasiRNA的靶基因
鉴定miRNA，与已知数据库比较看数据库里的准不准，看能不能改正或是添加
miRNA的靶基因
结合具体的生物学问题看看小RNA在什么条件下在哪些组织中高表达

介绍

小非编码RNA在发育，细胞分化，适应生物和非生物胁迫以及基因组稳定性方面具有重要作用。小RNA的主要活性是通过靶标降解，翻译抑制或通过指导染色质修饰来对特定mRNA或基因表达模式进行负调控。迄今已鉴定出几种不同类型的小RNA。在植物中，研究最多的小RNA是microRNA（miRNA）和小干扰RNA（siRNA）;这些是由不同的前体和不同的途径产生的。通常长度为21至22个核苷酸的miRNA衍生自通过RNA聚合酶II从MIRNA基因转录的长非编码RNA前体。miRNA前体形成由DICER-LIKE1（DCL1）或其他DCL酶（极少数）加工的茎环结构，产生3’具有两个核苷酸突出的单个小RNA双链体（miRNA / miRNA *）。小RNA双链体的一条链是成熟miRNA，被称为引导链，它会结合到Argonaute（AGO）蛋白上以形成效应复合物（所谓的用于RNA诱导的沉默复合物——RISC），其指导miRNA靶标降解或翻译抑制。双链体的另一条链，即miRNA *或passenger strand，迅速降解，通常不会积累。 siRNA通常来自完全互补的长双链RNA（dsRNA）前体，这些前体一般由RNA依赖性的RNA聚合酶（RDR）形成，也可能由退火了的正义/反义转录物形成。已经在植物中定义了几类siRNA，主要类别是异染色质siRNA，它在胞嘧啶甲基化和抑制性组蛋白修饰的建立和维持中起关键作用。 siRNA还能够作为移动信号起作用，通过siRNA的运动使沉默效应从细胞扩散到其它细胞或更长距离。

科学家已经鉴定了一类相当有趣的siRNA，它们是长双链RNA前体以21个核苷酸为增量来逐步裂解的产物，产生定相的或完全间隔排列的小RNA。这些siRNA，即所谓的相位排列siRNA（phasiRNA），由特定的引导miRNA切割而产生，遵循单击或双击模式，分别对应一个22nt或两个21nt的miRNA的靶位点。切割的未加帽的mRNA产物用作RDR6的底物，产生dsRNA前体，然后被DCL4切割以产生21-核苷酸的定相siRNA。一些定相siRNA已经显示在靶基因的反式调节中起作用;因此，这类siRNA最初被称为tasiRNA，但是更多的基因位点产生具有未知反式作用的相同相位模式（PHAS基因座）的siRNA，因此一般用“phasiRNA”进行描述。tasiRNA通过对互补靶位点进行切割来调节mRNA，这如同许多植物miRNA一样。最着名的tasiRNA是由TRANS-ACTING SIRNA GENE3（TAS3）产生的反式小干扰RNA-生长素响应因子（tasiARF）的集合。tasiARF在抑制生长素响应因子基因（ARF2，ARF3 / ETTIN和ARF4）中起作用。已经在许多植物物种中鉴定出许多phasiRNA，包括拟南芥，水稻（Oryza sativa）和葡萄（Vitis vinifera）。已知PHAS基因座的数量在物种之间差异很大，从野生稻（Oryza rufipogon）中的800多个到拟南芥中的不到30个。在豆科植物中，分别在Medicago truncatula和大豆（Glycine max）中鉴定出114和41个PHAS基因座。

大豆在经济上是世界上最重要的豆类，它是蛋白质和食用油的主要来源之一。大豆的基因组序列现在可公开获得。基因组序列与下一代测序技术产生的数据一起，使得能够在全基因组范围内鉴定和定量小RNA。迄今为止，已在大豆中鉴定出数百种miRNA。然而，许多新注释的miRNA及其靶标尚未得到很好的验证，甚至注释的miRNA也经常在更强大的实验数据后进行校正。PHAS基因座比miRNA的注释更差。与Medicago truncatula相比，在大豆中鉴定出的PHAS位点要少得多。凭借广泛的小RNA数据和更高的测序深度，可以发现更多的PHAS。在这项研究中，我们分析了从不同组织中创建的大量小RNA文库，以构建小RNA的表达图谱并全面鉴定大豆中的PHAS基因座。我们证明大豆中的许多蛋白质编码基因是PHAS基因座。除了先前被鉴定为豆科植物PHAS基因座的NB-LRR之外，我们发现了数百种其他产生phasiRNA的蛋白质编码基因。我们整合了RNA末端（PARE）数据的并行分析，以确定这些PHAS基因座的miRNA触发因子。从这些数据中，我们验证了在miRBase（版本20）中记录的大豆miRNA并且鉴定了新的miRNA，证明了许多先前报道的miRNA具有siRNA的特征。基于表达分析，我们证明了phasiRNA以及已知和新发现的miRNA在不同组织和不同处理下的特异性表达。

总结

第一段

小RNA的重要性及作用方式（降解，抑制；根据和靶位点的结合紧密程度来分，结合紧密直接降解，不太紧密就抑制/干扰/微调）
植物中小RNA的分类，miRNA的发生和作用过程，异染色质siRNA作用

第二段

phasiRNA的形成过程，命名原因，在物种中的含量

第三段

全基因组范围内搜索鉴定小RNA已成为可能
大豆中小RNA的研究现状：没有很好的验证，以及注释差
这篇文章做了些什么，在上一个总结的基础上，加上整合PARE数据确定PHAS基因的miRNA触发位点，差异表达分析

结果

大豆小RNA和PARE文库的构建和测序

我们从大豆的营养和生殖组织构建并分析了69个小RNA文库，包括花，叶和发育中的根瘤；此外，我们整合了种子和种皮组织的公共数据。叶组织来源于充分浇水或干旱胁迫下的植物，或使用模拟生物胁迫的处理（即鞭毛蛋白和几丁质处理）。花组织的小RNA文库由未开放的花，开放的花，子房和花药制备。在接种后10,15,20,25和30天从发育中的根瘤取样制备根瘤的小RNA文库。我们构建的文库（即，除了来自公开数据库的种子相关数据之外的所有文库）包括每个样品的两到三个生物学重复。

充分利用公共数据库，构建文库时明确什么实验条件什么组织

保留了18至34个核苷酸范围内的小RNA reads，从所有文库中总共得到1,967,153,698个reads。去除与结构RNA（主要是rRNA或tRNA一类的）相匹配的序列后，保留了1,158,661,201个基因组匹配的reads（占总数的58.9％），相应的有138,436,684个独特的序列（能匹配到基因组的reads的11.9％，总reads数的7.0％）（我的理解是reads的种类）。将每个文库中的序列丰度标准化为TP5M。在根瘤文库中发现有最高比例的独特序列（27.5％），而在叶片文库中发现有最低比例（6.6％），可能反映了叶片中sRNA复杂性的饱和度（也就是没那么复杂，种类少），因而其具有最高的reads丰度。对reads长度分布的分析表明，不同长度的小RNA在不同组织中的比例不同（补充图1）。在几乎所有组织中，21和24个核苷酸的总reads丰度比例高于其他长度的小RNA，并且在组内重复和不同组织中一致；一个例外是在叶组织中，其中24核苷酸的reads的总丰度的比例大大降低（补充图1A，1C，1E和1G）。后一种情况与拟南芥叶片不同，其中24核苷酸reads的丰度很高（补充图2）。在所有组织中24个核苷酸类reads中独特reads的比例大于21个核苷酸类reads，可能反映出，这些通常是来自一系列基因组重复序列的异染色质siRNA（补充图1B，1E，1F和1H）。如上所述，叶片文库具有相对较少的独特reads，其中最突出的类型（68％）是miRNA（补充图2）。在叶片文库中，miRNA主要仅包含三种：miR398c，miR3522变体和miR166a，并且在这些序列中，miR398c占21个核苷酸小RNA的22.5％。叶片中相当多的21个核苷酸小RNA来自基因间区（19％）。这些基因间区内的相关序列是最多样化的，占独特reads的69％。在生殖组织中，22个核苷酸的独特reads的比例很高，并且与21个核苷酸的小RNA相当（补充图1B），而在根瘤和种子组织中，22个核苷酸独特reads的占比高于21个核苷酸（补充图1F）。所有匹配基因组的reads用于miRNA评估和定相基因座鉴定（见下文）。

这一段给了很多比例，每一个的意思，是怎么算的要清楚
在叶片文库中，miRNA主要仅包含三种：miR398c，miR3522变体和miR166a —— 后面多注意一下这里的鉴定是怎么做到的

重新评估已注释的miRNA

miRBase版本20（http://www.mirbase.org）可追溯至2013年11月，包含来自70多种植物的超过6000个MIRNA基因。在大豆中，来自505种前体的554种成熟miRNA已经被记录。在miRBase中记录的许多miRNA基于与其他物种中保守miRNA的相似性进行计算鉴定（基于序列保守性的预测鉴定），一些通过小RNA文库深度测序验证了，很少一部分通过PARE数据（也称为降解组数据）验证其功能。在没有实验验证的情况下，如PARE数据或cDNA末端的5’快速扩增（PARE data or 5’-rapid amplification of cDNA ends），miRNA功能的预测结果可能比较模糊。对水稻miRNA的分析表明，许多预测的miRNA是不典型的，缺乏常规miRNA特征，或者它们是像siRNA的miRNA（siRNA-like）而不是典型的miRNA。siRNA-like miRNA的特性包括小RNA是多样的，分布式的，低丰度的并且在生成它们的基因位点的两条链上都能发现。使用小RNA深度测序数据结合PARE文库对miRBase中注释的水稻miRNA进行的分析极大地改善了典型miRNA的表征结果。在我们的研究中，使用迄今为止产生的最大的大豆小RNA数据集以及PARE数据，使我们能够评估miRBase注释的大豆miRNA（version 20）并发现新的miRNA。表征典型植物miRNA的标准基于Meyers等人，并且评估miRNA的过程基本上如Jeong等人所述。在除去与大豆1.1版基因组无法比较的注释miRNA后，530个先前报道的miRNA被重新评估以将每个miRNA表征为（A）弱表达的miRNA，其难以评估，但类似于异染色质siRNA;（B）与siRNA高度相似且可能是siRNA;（C）一种略微符合（原文：marginally meets）严格定义的miRNA（可能包括新进化的miRNA）;（D）符合明确定义的miRNA所有标准的典型miRNA（参见方法；每个类的实例显示在补充图3中）。基于Meyers等人的miRNA家族标准，我们还通过与拟南芥的比较来评估大豆miRNA的保守性。在大豆和拟南芥之间产生231个保守的miRNA，在miRNA列表中相应地分配了名称（补充数据集1B）；这些miRNA明显适合D类，即明确定义的miRNA。

可以基于序列保守性来预测鉴定miRNA
降解组数据验证miRNA的功能，降解组测序是对什么进行测序，mRNA吗？

降解组测序（Degradome Sequencing）正是利用高通量测序技术结合生物信息学手段对这些mRNA降解片段进行大规模鉴定，进而鉴定miRNA调控靶基因的技术——miRNA的功能研究手段。降解组测序原理

siRNA-like miRNA的特点，也反映了siRNA的特点
530个先前报道的miRNA

（A）弱表达的miRNA
（B）与siRNA高度相似且可能是siRNA
（C）略微符合严格定义的miRNA（可能包括新进化的miRNA）
（D）典型miRNA

基于Meyers等人的miRNA家族标准，通过与拟南芥的比较来评估大豆miRNA的保守性。具体怎么做的？

评估miRNA并将基因座分类为上述类别的过程主要涉及三个标准，包括它们的丰度，丰度比和链比。通过检查与每个miRNA基因座匹配的两个最丰富的小RNA（“top1 + top2”）的reads计数来计算丰度，对于真实的miRNA，其通常代表miRNA双链体的两条链。总共530个miRNA的总丰度范围从低至1 TP5M到最高丰度4410万TP5M（miR166的两个最丰富的序列变体）和3690万TP5M（miR1507）。我们将191个miRNA前体指定为“弱表达”基因座；这些位点匹配reads的丰度<924 TP5M，低于保守miRNA基因座的95％（补充数据集1B）。对于第二个标准，丰度比，我们检查了两个最丰富的小RNA（top1 + top2）和所有与每个miRNA基因座匹配的小RNA之间的丰度比，而对于第三个标准，链的偏向性，每一个茎环结构是这样算的：有义链的小RNA序列的总丰度除以两条链的总丰度。在保守的miRNA中，95％的丰度比为0.565或更高，而在非保守miRNA只有17.5％的丰度比为0.565或更高（补充数据集1B）。按照Jeong等人的做法，我们将丰度比小于0.4的miRNA基因座定义为“siRNA-like”miRNA基因座，将比率在0.4和0.5之间的miRNA基因座指定为“marginal”miRNA基因座，与补充图3中显示的例子一致。95％的保守miRNA前体具有0.978或更高的链比，而只有23％（71/299）的非保守miRNA符合该值。我们认为具有小于0.8链比的miRNA前体作为“siRNA-like”miRNA，具有0.8到0.9链比的miRNA前体作为“marginal miRNA”。综合第二和第三标准，我们能够将312个miRNA分类为典型的miRNA，203个miRNA作为siRNA-like miRNA，15个miRNA作为marginal miRNA；312个miRNA包括从第一个标准（补充数据集1B）定义的191个弱表达的miRNA。“典型miRNA”类中的大多数miRNA长度为21和22个核苷酸，而“siRNA-like”类miRNA主要在已注释的miRNA中，它们具有24个核苷酸大小（补充数据集1B）。后一组miRBase中有的 siRNA-like ，24核苷酸的miRNA可能被错误地注释。

丰度：利用与每个miRNA基因座匹配的两个最丰富的小RNA（“top1 + top2”）的reads计数来计算丰度
丰度比：两个最丰富的小RNA（top1 + top2）和所有与每个miRNA基因座匹配的小RNA之间的丰度比
链的偏向性：每一个茎环结构是这样算的，有义链的小RNA序列的总丰度除以两条链的总丰度
191个miRNA前体被定义为“弱表达”基因座，因为丰度小
丰度比小于0.4的miRNA基因座定义为“siRNA-like”miRNA基因座，在0.4和0.5之间的miRNA基因座指定为“marginal”miRNA基因座
链比小于0.8的miRNA前体作为“siRNA-like”miRNA，链比在0.8到0.9之间的miRNA前体作为“marginal miRNA”
将312个miRNA分类为典型的miRNA（包括了191个弱表达的miRNA），203个miRNA作为siRNA-like miRNA，15个miRNA作为marginal miRNA

大豆中新miRNA和miRNA变体的鉴定

除了对先前报道的miRNA重新评估之外，我们还使用小RNA数据来鉴定新的miRNA并注释miRNA变体。用于鉴定新miRNA的流程改编自Jeong等人（补充图4）。在排除t / r / sn / snoRNA后使用124,526,477个不同的reads，对18至26个核苷酸之间的所有基因组匹配的reads进行过滤以获得reads丰度，包括那些至少在一个文库中 >= 50 TP5M。比对到大豆染色体中超过20个位置的reads也被丢弃，因为它们过于重复而不能成为miRNA。在124,526,447个reads中，有29,133个序列通过第一个过滤条件，包括198个与已知miRNA匹配的序列。如Jeong等人所述，通过miREAP（https://sourceforge.net/projects / mireap）分析通过第一组过滤条件的候选前体。总计获得了对应4047个前体的2523个序列。在198个已报告的miRNA中，只有120个通过了第二个过滤条件。然后使用第三个过滤条件来评估单链bias（有义/总的 >= 0.9）和丰度bias（[top1 + top2] /总的>= 0.7），为了保证一个前体仅产生一个或两个最主要的miRNA。总共对应361个前体的180个小RNA序列通过该过滤条件，包括71个已知的miRNA。应用第四个过滤条件以鉴定高质量的茎环结构，使用CentroidFold进行分析。来自332个前体的共151个候选序列通过了此过滤条件；来自上一步的所有71种已知miRNA也都通过了。在71种已知的miRNA中，与miRBase中记录的miRNA相比，我们发现44种变体（补充图4）。在排除已知的miRNA后，将22个高可信度候选序列指定为新的miRNA（补充数据集1C）。还通过比较小RNA reads和miRBase（补充数据集1D）中记录的那些来鉴定miRNA变体。发现大约20个长度不等的序列，和miRBase中记录的miRNA相比较，包含不同的核苷酸替换。这些miRNA变体的长度在19至24个核苷酸之间变化，包括1至4个核苷酸的替换。还在先前报道的miRNA（补充数据集1D）的相同前体上从不同位置鉴定了10种新miRNA。因此，能够从我们的数据集中鉴定出大量新的和已知的大豆miRNA。

重点是流程图和过滤条件

大豆不同组织和不同处理中miRNA的丰度差异

对所有69个小RNA文库中的新的和已知的miRNA及其变体进行丰度计数的差异评估。我们的数据的层次聚类揭示了许多miRNA表现出组织优先积累。我们选择了三组miRNA进行更详细的分析。第一组是显示组织优先水平的所有新型miRNA（图1A）。在22种新型miRNA中，6种仅在种子组织中观察到，包括gma-miR10196，gma-miR10195，gma-miR10191，gma-miR10188，gma-miR10194和gma-miR9756（图1A）。类似地，gma-miR10200富含于根瘤，gma-miR5030b富含于叶片。这些新型miRNA中的一些富含于一种以上的组织中；即，gma-miR10201，gma-miR10186，gma-miR10198，gma-miR10193和gma-miR9749在生殖组织和根瘤中富集（图1A）。第二组是在生殖组织中高度富集的miRNA。该组包括gma-miR395c，gma-miR395d，gma-miR395g，gma-miR169s，gma-miR156f和gma-miR4392（图1B）。在花组织中优先观察到的miRNA中，其中一些在花药中显示出高度富集，即gma-miR4392，gma-miR393和gma-miR167e。有趣的是，gma-miR4392在生殖组织中高度丰富，特别是在花药中，但在其他组织中几乎不存在（图1B，并在下面更详细地分析）。还存在优先存在于生殖组织以及根瘤中的miRNA，即miR172c，miR159b和miR395g（图1B）。以组织优先方式观察到的最后一组miRNA包括在发育中的根瘤中强烈存在但在其他组织中少量存在的miRNA。这些包括miR171b，miR171r，miR159f，miR172d和miR43945p（图1B）。不适合我们的三组中的任何一组的是许多富含种子组织的miRNA，即gma-miR176e / f和gma-miR1512c。这些种子特异性miRNA在其原始研究中得到了很好的描述。

探究了不同组织（或组织组合）中的miRNA富集差异。

一个家族中的miRNA在组织中差异累积；例如，包含22个成员的大型miR171家族显示出多样的富集模式（补充图5）。一些在根瘤富集，即gma-miR171s，gma-miR171r和gma-miR171b-3p，而其他的是富含于花和叶的。来自单个前体的miRNA的加工变体也以不同方式累积；变体gma-miR156c.2在子叶中高度富集，而gma-miR156c.1不存在（补充数据集1D）。gma-miR156c在大多数或所有组织中，但优先在种皮组织中表达。类似地，gma-miR3522.1优先在种子组织和叶组织中鉴定，而gma-miR3522仅在种子组织中以低水平存在（补充数据集1D）。

什么叫基因家族？如何定义一个基因家族？什么样的序列才能被算作一个基因家族中的一个成员？

我们接下来发现了在应激处理中差异表达的miRNA。这是使用R软件包baySeq完成的，条件需满足似然值>=0.95，错误发现率<0.01。通过这些阈值，在两种基因型（IA3023和LD003309）的水胁迫叶中没有miRNA差异表达；然而，最接近的是gma-miR1446，富含于干旱胁迫的叶子（补充数据集1E;图1A）。我们发现9种miRNA在鞭毛处理的Dassel基因型中上调，可能模仿生物应激（补充数据集1E），而我们无法鉴定由几丁质处理产生的任何差异表达的miRNA。在我们的文库中，比起不同的处理，在不同的组织中，差异miRNA富集的现象更明显。

图1.新的和组织优先miRNA的表达谱。
（A）在该研究中鉴定的新miRNA包括许多在特定组织或器官中差异富集的miRNA。
（B）对先前描述的大豆miRNA的分析还揭示了花，叶和根瘤中一系列的组织bias。

使用PARE文库进行miRNA靶标验证

使用PARE数据能够快速且精确地进行miRNA指导的靶标降解的实验验证。我们从花，叶和根瘤组织构建了PARE文库，并利用种子的公共PARE数据，包括超过6500万个不同的reads（补充数据集1F）。在PARE验证的miRBase注释的大豆miRNA靶标中，我们验证了262个miRNA的392个靶标，其中大多数是典型的miRNA。其中，261个与注释为蛋白质编码基因重叠，其余在基因间区或未注释的基因（补充数据集1G）。每个miRNA的靶标数量范围从1到23。在新miRNA和变体中，鉴定了8个新miRNA的9个靶标，并鉴定了33个新miRNA变体的129个靶标。其中，新miRNA和新miRNA变体的8和86个靶标分别与注释基因重叠，其余定位于基因间区（补充数据集1H），其可以是未注释的基因或非编码转录物如TAS基因座。

降解组数据从生信角度如何分析？
找出靶标之后，如何注释（定位于基因区，基因间区）？可以用Annovar吗？

全基因组范围内鉴定生成Phased siRNA的位点及其触发物

产生相位排列siRNA的植物基因座，即所谓的PHAS基因座，包括蛋白质编码和非编码转录物；豆科植物M. truncatula富含这种基因座，在其他植物物种中这种基因座的数量不定。我们将所有69个小RNA文库结合起来鉴定大豆PHAS基因座，随后通过逆向计算评估其miRNA触发物。以phasing P value <= 0.001（严格阈值）（图2A）为条件，鉴定了504个基因组上的PHAS基因座。其中，483（95.8％）与注释的蛋白质编码基因有重叠。这些PHAS基因座的主要类别（208个，占41.0％）对应NB-LRR类基因，其编码79个Toll白细胞介素1受体（TIR）-NB-LRR，5个coiled-coil (CC)-NB-LRR，和89个其他NB-LRR（图2A）。这些phasi-NB-LRR（pNL）占大豆基因组中鉴定的所有NB-LRR的65％（208/319），包括Kang等人鉴定的那些，加上使用Greenphyl DB鉴定的另外35个phasi-NBLRR基因（补充数据集1I）。大多数pNL基因座聚集在染色体3,6,13,15和16上，其含有30,21,15,14和40个pNL（图2C）。在不同pNL之间phasiRNA的水平不同，一些在所有分析组织中显示高水平的siRNA，但是其他phasiRNA在特定组织中累积，如根瘤（图2B）。许多receptor-like kinase-encoding基因也产生phasiRNA，但这些只是大豆中已知的600个receptor-like kinase-encoding基因的一小部分（25个基因座）。在拟南芥中，大多数编码蛋白质的PHAS基因是含有三角状五肽重复区(PPR)的蛋白区域，但在大豆中我们发现仅有15个PPR编码PHAS基因座。几种不同的转录因子家族占PHAS基因座的15％（图2A），包括来自Aux / IAA和生长素响应因子家族的18个PHAS基因座（AUX-IAA-ARF），APETALA2中的10个PHAS基因座和乙烯 - 响应元件结合蛋白（AP2-EREBPs）基因家族，以及来自编码MYB / HD样蛋白的基因的另外10个PHAS基因座（图2A）。参与小RNA生物发生的基因，即DCL（5个基因座），SUPPRESSOR OF GENE SILENCING3（3个基因座）和AGO2（1个基因座）也是大豆PHAS基因座之一，表明可能发生反馈调节。最后，大量（126）的PHAS基因座与功能未知的基因重叠，其中许多是基因组中的单拷贝，表明顺式而非反式活性（图2A;补充数据集1I）。由于我们这次的数据集更广泛、更深入，504大豆PHAS基因座显着大于且包括我们之前在大豆中鉴定的41个基因座。

与蛋白质编码基因不同，一组21个PHAS基因座预测是非编码基因。这包括6个TAS3-like的基因座和先前报道的未命名的TAS-like基因座。两个TAS3基因座（TAS3a和TAS3b）高度富集（这里应该是指它们产生的phasiRNA吧），并且与拟南芥非常相似，而另外四个TAS3旁系同源物（TAS3c-f）在phasiRNA丰度，序列保守性或触发物排列方面不同（图3）。除花组织外，TAS3c和TAS3d产生的phasiRNA很少（图3A）；TAS3a和TAS3b在大多数组织中稳定积累，在根瘤发育的过程中具有丰富的含量（图3A）。 TAS3e-和TAS3f-衍生的phasiRNA在根瘤中检测不到（图3A）。此外，我们还发现了非编码PHAS基因座，其仅在花药中产生phasiRNA，见下文。

借助（结合了AGO蛋白的miRNA）的触发物切割双链靶标而产生phasiRNA，在这个过程中RDR6酶负责合成dsRNA，这是DCL4酶加工成定相的21个核苷酸的sRNA的底物。为了鉴定PHAS基因座的miRNA触发物，我们整合了大豆miRNA和PARE数据。确定了127个PHAS基因座的20个miRNA触发物，每个触发物靶向1至20个基因座（补充数据集1I）。 3个miRNA触发超过10个PHAS基因座，包括gma-miR167e（触发10个PHAS基因座），gma-miR2109（11个基因座）和gma-miR1510b-3p（20个基因座）；前者靶向ARF6和ARF8转录因子，后两者主要触发pNL。最后，我们观察到：在拟南芥触发phasiRNA发生的miRNA中观察到的特征——前体具有不对称凸起的茎环结构，在我们发现的许多miRNA触发物中都没有。

图2.编码蛋白质的PHAS基因。
比起其他研究过的植物基因组，大豆基因组含有更多的编码蛋白质的产生phasiRNA的基因座。
（A）编码PHAS基因座的类别和数量。
（B）NB-LRR家族中PHAS基因的表达谱和层次聚类。
（C）大豆基因组中phasi-NB-LRR基因的分布和聚类。

TAS3的新基因座和相位模式

在植物中，许多定相基因座由one-hit的22个核苷酸的miRNA触发，在切割位点下游产生phasiRNA；对于我们鉴定的大豆中的定相基因座也是如此（补充数据集1I）。TAS3基因座通常由miR390通过two-hit途径在两个位点结合触发，引发tasiARF产生。从所有六个大豆TAS3基因座产生保守的tasiARF：两个由TAS3a / b [597D（+）和598D（+）]产生，并且仅一个（597D（+））来自TAS3c / d / e / f（图3B）。在tasiARF GmTAS3c-597D（+）和GmTAS3d-597D（+）的第9和10位发现了单核苷酸变体（C-to-U）（图3B）。6个大豆TAS3基因座中的4个，TAS3a / b / c / d，其靶位点与经典的双击模型一致（图3C）；另外两个，TAS3e和f，都是非典型的。 TAS3e具有三个gma-miR390结合位点，基本上是three-hit基因座，中间位点被切割以启动下游加工和598D（+）产生（图3C）。相对于拟南芥TAS3，大豆TAS3e具有非经典的定相方向，在21-核苷酸gma-miR390切割的位点的下游而不是上游。类似地，TAS3f中的定相是5’ miR390靶位点的下游，但gma-miR390结合位点的位置和数目是TAS3基因座的典型位点（图3C）。

我们的数据还表明tasiRNA可以在two-hit生物发生中起作用以触发额外的secondary siRNA。来自TAS3的tasiARF靶向并切割来自ARF3 / ETT和ARF4基因的转录物。在大豆中，ARF3 / ETT（Glyma13g24240）和ARF4（Glyma12g07560）的转录本不仅被tasiARFs GmTAS3a,b 597D(+)和GmTAS3a,b 598D(+)切割，而且ARF靶标也产生了phasiRNA（图4A;补充图7）。因此，两种tasiARF都是phasiRNA触发物，如使用two-hit途径从切割位点下游处理所证明的。更重要的是，这表明siRNA还可以通过生物发生的two-hit机制起到phasiRNA触发的作用（图4B）。

图3.大豆TAS3 TasiRNA的触发物和加工机制。
（A）来自大豆基因组中存在的六个TAS3基因座中的tasiRNA的总和在花，叶，根瘤和种子组织中的富集模式。 TAS3a和TAS3b是相同的，因此不能单独测量。
（B）源自TAS3a / b / c / d / e / f的TasiARF。所有TAS3 598D（+）和597D（+）siRNA的验证目标均在生长素响应因子（ARF）家族中，与其相对良好的保守序列一致（数据未显示）。
（C）在大豆TAS3基因座处存在两个或三个miR390靶位点，并且相对于这些靶位点的定相方向表明在TAS3e和TAS3f处由21个核苷酸的miRNA触发的siRNA的非典型加工方向。

图4.由TasiARF触发的ARF3 PHAS-Locus。
（A）大豆TAS3衍生的tasiARF在两个相同的位点靶向ARF3，通过PARE验证切割的59位点（下图）和未观察到切割的39位点。这种双击的tasiARF活性产生了定相siRNA（中图）。 y轴是phasing “score”，其是定相显著性的估计P值（参见方法）。较低的两个图像是我们的Web浏览器，显示小RNA（中间）或PARE数据（下部），橙色虚线表示tasiARF切割位点。有色斑点是在y轴上显示丰度的小RNA；浅蓝色斑点表示21个核苷酸的sRNA，绿色表示22个核苷酸的sRNA，橙色表示24个核苷酸的sRNA，其他颜色对应其他sRNA大小。红色框是带注释的外显子（粉红色是非翻译区域）。紫色线表示重复区的k-mer频数。
（B）来自图A的数据表明two-hit的phasiRNA生物发生的级联反应，其中21个核苷酸（nt）miR390触发21个核苷酸的tasiARF生物发生，并且通过two-hit机制，tasiARF触发来自ARF3和ARF4的额外二级siRNA的生成（参见补充图7在线）。 ARF siRNA可以顺式或反式起作用。

图5.源自Arogenate脱氢酶基因座的花药中高度富集的PhasiRNA。
（A）涉及雄激素脱氢酶的生化途径。
（B）来自雄激素脱氢酶相关基因座的phasiRNA产生的示意过程。在左侧，将形成发夹的基因片段加工成phasiRNA。
（C）来自不同组织中的两种arogenate dehydrogenase PHAS基因的miRNA触发物和phasiRNA的reads丰度水平（红色条）和基因表达水平（绿色条），其被标准化为RP5M和RP25M。

PhasiRNAs在不同组织和不同处理中的差异表达

方法

植物材料

为了获得生殖组织，大豆（Glycine max）栽培品种Williams 82在16小时光照/ 8小时黑暗，25℃的温室中培养。分别收集未开花、开花一天的花组织。从未开的花中解剖出花药和子房组织。为了获得根瘤组织，在接种大豆根瘤菌USDA110菌株后10,15,20,25和30天收集发育中的根瘤。为了获得水胁迫下的样品，将近交系IA3023和LD00-3309播种于两个盆中，一个作为对照，另一个胁迫处理。植物生长至V1阶段，并且所有盆2天灌溉一次至田间容量（1600mL水）。在V1阶段，胁迫组不予以灌溉，并且对照盆被灌溉直到实验结束。一旦处于胁迫下的植物的50％达到永久枯萎点（叶片水势为-8 至 -10 bars），从对照和胁迫组中收集叶样品。对于病原菌模拟处理，来自三个大豆品种Williams 82，Dassel和Vinton 81的叶样品用几丁质八聚体和水对照处理30分钟。来自相同品种的叶样品也用从细菌鞭毛蛋白22中保守22个氨基酸的肽和水处理30分钟。在RNA提取之前，立即将从所有组织收集的样品在液氮中冷冻。

sRNA和PARE的RNA提取和测序

使用Concert Plant RNA Reagent（Invitrogen / Life Technologies）从植物材料中分离总RNA。使用TruSeq Small RNA样品制备试剂盒（Illumina）构建小RNA文库。如前所述构建PARE文库（Zhai等，2014）。文库在Delaware Biotechnology Institute（Newark，DE）的Illumina HiSequation 2000上测序。

测序数据的计算分析

去除原始测序数据的接头序列，然后使用Bowtie（Langmead等人，2009）将其定位到大豆基因组（DOE-JGI Community Sequencing Program v1.1）。与大豆基因组完全匹配的reads（不包括那些匹配的tRNA，rRNA，snRNA和snoRNA）用于进一步研究。从miRBase（版本20; http://www.mirbase.org/）检索大豆成熟miRNA及其前体。

如何确定有没有匹配到tRNA，rRNA，snRNA和snoRNA？

miRNA预测流程

miRNA预测流程在补充图4中概述。该过程中的各个步骤使用Perl脚本（Jeong等，2011）与miREAP结合进行(https://sourceforge.net/projects/mireap/)和CentroidFold (Sato et al., 2009)。miREAP用于评估miRNA和miRNA *的配对，其参数设置为允许miRNA和miRNA *（-d 400）之间的最大距离为400个核苷酸，在前体末端延伸25个核苷酸（-f 25），关闭针对动物miRNA优化的过滤设置，包括对植物miRNA特征的微调（我们的miREAP修改版可根据要求使用）。此外，还要求两个miRNA特征：基于保守miRNA的特征，单链偏向性>=0.9，丰度偏向性>=0.7。CentroidFold按照默认设置使用，来显示整个miRNA前体结构，以进行手动评估。

miRNA靶基因预测和PARE验证

394个microRNA的全基因组靶基因被鉴定和验证;这涵盖了312个典型的miRNA，15个marginal miRNA，44个新的miRNA变体和23个新的miRNA。使用sPARTA包进行验证（Kakrana等，2015）。使用sPARTA的内置目标预测模块miRferno进行目标预测，其具有标准评分方案，分数阈值为<=7，随后是基于PARE的预测目标验证。以校正P值<=0.05并且在切割位点具有PARE reads丰度>=5为过滤条件，经验证的miRNA-靶基因相互作用被用于进一步解释。

定相分析

将sRNA reads比对到大豆基因组后，用匹配的坐标表示单个sRNA。由于在sRNA双链的3’端存在两个核苷酸的突出，因此与反义链匹配的sRNA添加了两个核苷酸的正偏移。使用9个循环的滑动窗口（189 bp）进行全基因组搜索，每次切换为3个循环（63 bp），当至少10个不同的reads落入9循环的窗口，至少50％匹配的特异reads长度为21个核苷酸，并且至少3个特异reads落入某个寄存器，此时报告窗口。接下来报告的具有重叠区域的窗口被组合成单个较长窗口。然后，使用Xia等人的算法，基于比对结果计算每个窗口的P值。对于相位P值<=0.001的基因座还需最终检查。绘制来自每个基因座的小RNA的P值和丰度并且肉眼检查以去除假阳性，例如具有许多低丰度峰的miRNA基因座可能错误地通过我们的过滤器。手动除去未注释的tRNA和类似rRNA的基因座。

miRNA的差异丰度分析

基于reads的丰度数据，使用Bioconductor的R软件包“baySeq”（ Hardcastle and Kelly, 2010 ），对水胁迫和病原体模拟处理的样品进行成对（即对照与胁迫处理）的差异表达分析。>=0.95估计后验似然概率的聚集至显着不同水平的miRNA被鉴定出来。

数据获取

将大豆小RNA和PARE测序数据提交给NCBI Gene Expression Omnibus，编号GSE58779。

参考

降解组测序：http://www.ebiotrade.com/custom/LC_BIO/100427/index.htm

最后编辑于：2019.01.31 17:23:42

©著作权归作者所有,转载或内容合作请联系作者
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

推荐阅读更多精彩内容

高通量测序基础知识简介
什么是高通量测序？高通量测序技术（High-throughput sequencing，HTS）是对传统Sang...
翠湖心影阅读 21,468评论 2赞 81
8种特殊建库测序
8种特殊建库测序 8种特殊建库测序 1. RNA-seq 2. 外显子测序 3. small RNA-seq 4....
wangchuang2017阅读 13,260评论 2赞 92
这些高通量测序名词你都知道吗
转载：https://biozx.top/ngs.html[https://biozx.top/ngs.html]...
我是爱哭虫小鱼阅读 3,549评论 0赞 17
【评书】为什么白眉大侠里展昭都成饭桶了，单老每每提到白玉堂，还说白五爷那么大的能耐云云！！
为什么白眉大侠里展昭都成饭桶了，单老每每提到白五爷，还说白五爷那么大的能耐云云。正式回复这个问题：有人认为这是...
三侠五义传阅读 5,103评论 0赞 1
考研打卡记
7月12日从中公辞职，到现在已经过去一段时间了，真正的破釜沉舟，让自己无路可退，但是现在的状态却并不能让人满意。 ...
小伙子不孤单阅读 174评论 0赞 0

6赞7赞

赞赏

手机看全文