LncPheDB: a genome-wide lncRNAs regulated phenotypes database in plants
个人总结:
目前植物中lncrna的研究还处于起步阶段,lncRNA在植物中扮演着精确调控者的角色,它无处不在,从植物的生长发育到抗虫抗病,贯穿植物的一生。植物中绝大多数lncRNA调控机制探索都是在拟南芥中进行的,可是lncRNA的普遍具有低表达、不同物种间保守性差、组织特异性低等特点,因此在拟南芥中研究其他物种的lncRNA调控机制显然是不恰当的,因此我们对作物中lncRNA调控机制的理解仍然有限。
基于以上,本文作者开发了****LncPheDB****数据库:全基因组 lncRNAs--9个作物表型关联。【简单来说就是GWAS+lncRNA】主要包括:
全基因组lncRNA注释、
靶基因预测、
变异性状关联、
基因-表型相关性、
lncRNA-表型相关性
查询序列中类似的非编码区域(blast)
9个物种有
玉米(Zea mays L.)
棉花(Gossypium barbadense L.)
小麦(Triticum aestivum L.)
番茄(Lycopersicon esculentum Mille)
水稻(Oryza sativa L.)
普通大麦(Hordeum vulgale L.)
高粱(Sorghum bicolor L.)
大豆(Glycine max L.)
黄瓜(Cucumis sativus L.)
- 使用我自己的数据进行了验证,并且查看了水稻用的转录组数据,发现用的是普通转录组数据,不具有代表性,并且在文中发现了错误,使用的部分水稻数据为籼稻 Oryza sative ssp. indica ,但是在其中标注的粳稻* Oryza sative *ssp. japonica。因此使用此数据库还是要有自己的判断力,还是具有一定的局限性,我自己分析的几个水稻lncRNA在其中只有一个lncRNA的部分序列能比对上,可能是所用的数据库不同,或者是在特定条件下特异性表达的原因,不过这个数据库用来查看一些基因的信息还是很有用的。
以下为文章的具体翻译内容,如需要进一步了解文章的详细细节可以查看。
摘要
- LncPheDB (https://www.lncphedb.com/)是一个系统的==全基因组长链非编码rna (lncRNAs)-多物种表型关联==资源。该模型用于显示多物种全基因组lncRNA注释、靶基因预测、变异性状关联、基因-表型相关性、lncRNA-表型相关性以及查询序列中类似的非编码区域。LncPheDB共筛选出玉米(Zea mays L.)、棉花(Gossypium barbadense L.)、小麦(Triticum aestivum L.)、番茄(Lycopersicon esculentum Mille)、水稻(Oryza sativa L.)、普通大麦(Hordeum vulgale L.)、高粱(Sorghum bicolor L.)、大豆(Glycine max L.)和黄瓜(Cucumis sativus L.) 9个品种的==203,391个lncRNA序列、2000个表型和120,271个变异==。在全基因组关联分析中,通过探究lncrna与变异体基因组位置的关系,共发现与农艺性状多样性相关的lncrna有==68862==个。
- 更重要的是,为了便于研究lncrna的功能,我们分析了lncrna可能的靶基因,构建了一个用于在所有物种中进行相似片段化研究的blast工具,链接了与拥有相似片段的lncrna相关的表型研究页面,并构建了其调控网络。此外,LncPheDB还提供了用户友好的界面、基因组可视化平台以及多层次、多模式的便捷数据搜索引擎。我们认为LncPheDB在挖掘lncrna相关植物数据方面发挥着至关重要的作用。
引言
- lncrna是一类长度超过200个核苷酸的非编码rna。最初,这类RNA曾被认为是基因组中的“垃圾”物质。然而,随着研究的继续,有越来越多的证据表明,lncrna在各种生物的生长和发育、代谢和调控过程中发挥着关键作用,特别是在哺乳动物和人类中(Kopp和Mendell 2018;Kung等人2013年;莫里斯和马蒂克2014;Sun等人2018年;Uchida和Dimmeler 2015;2017年)。然而,对植物中lncrna的研究还处于起步阶段。目前已在植物中发现lncrna不仅在调节植物生长激素转运、信号转导等生长发育过程中发挥重要作用。它还在提高作物产量(Wang et al. 2018)、叶片畸变(Liu et al. 2018)、植物肥力(Fang et al. 2019;Zhao et al. 2018)、果实肥力(Fan et al. 2016)和其他重要农艺性状。但目前绝大多数机制明确的lncRNA调控探索都是在拟南芥中进行的。
- 我们对作物中lncrna调控机制的理解仍然有限。此外,近年来,转录组数据被用于开展大量lncrna相关研究(Katayama et al. 2005;Osato等人,2003年;Terryn and Rouze 2000年;Wang等人,2005;Zhang等人,2006,2014;朱、邓2012)。研究表明,玉米中有32,397个lncrna,水稻中有11,565个lncrna,大豆中有12,577个lncrna (Jin et al. 2021)。也有研究发现,lncrna普遍具有低表达、不同物种间保守性差、组织特异性低等特点(Derrien et al. 2012;Cabili等,2011年)。这些特性使得lncRNAs功能的研究成为一项艰巨的任务。目前,虽然通过转录组研究已经鉴定出大量的lncrna,但功能得到进一步验证的lncrna还不到1% (Quek et al. 2015)。此外,多物种的全基因组关联研究(GWAS)显示==,84%的性状相关变异位点位于非编码序列==(Cheetham et al. 2013)。然而,基因组中的非编码区域缺乏注释等相关信息。这阻碍了我们对非编码区域的进一步研究。
- lncRNAs数据库是一个非常好的工具,可以方便对lncRNAs进行详细、准确的研究。近年来,我国共建立了20个植物相关lncRNA数据库。自出版以来,它们平均被引用了530次。但这些数据库大多根据转录组数据提供了lncrna在物种和目标基因预测方面的基本信息。
- 例如,PLncDB数据库(Jin et al. 2021)可以提供各种植物的基本信息,如lncRNA基因组的位置、序列和结构,在组织中的表达,以及基因调控网络的查询和可视化显示。然而,该数据库只能对单个物种进行基本局部对齐搜索工具(BLAST)分析。CANTATAdb 2.0数据库(Szczes´niak et al. 2019)包含植物和藻类的lncRNA,利用JBrowse、eFP Browser、EPexplorer等分析工具,搜索物种中lncRNA的最大肽长度、最大表达水平、外显子数量等信息。GreeNC数据库(Gallart et al. 2016)可以提取不同物种中lncrna的位置、序列、编码势、折叠能量等信息;它可以用于执行一个或多个物种的BLAST分析。早期研究人员构建的数据库大多集中在lncrna序列和位置的一些基本注释信息上。
- 然而,它们缺乏全面的注释信息。此外,很少有数据库能够提供lncRNAs与表型之间的相关性,以及多物种间lncRNAs的相似性,以及显示这些相似片段与表型之间可能的相关性。RiceLncPedia数据库(Zhang et al. 2021)是一个新建立的数据库,拥有全面的lncrna注释信息。例如,该数据库收集多组学信息,如数量性状位点、GWAS、转座子和变异位点(SNPs)。然而,它只显示了水稻的lncrna,而没有blast工具来研究lncrna在不同物种间的相似性。因此,有必要建立一个研究多物种中lncrna相似性的数据库,将lncrna与GWAS结合起来。
- 本研究建立了玉米(Zea mays L.)、棉花(Gossypium barbadense L.)、小麦(Triticum aestivum L.)、番茄(Lycopersicon esculentum Mille)、水稻(Oryza sativa L.)、大麦(Hordeum vulgare L.)、高粱(Sorghum bicolor L.)、大豆(Glycine max L.)、黄瓜(Cucumis sativus L.)等9种常见作物的lncrna信息数据库。还有其他。此外,该数据库还可以利用BLAST工具研究不同物种中靶基因序列的保守性以及可能被调控的表型条件。我们的数据库旨在进一步完善lncrna在植物中的注释信息,进一步探索lncrna可能的功能。
图1:LncPheDB的数据处理流程及结果。
材料与方法
数据收集整理
在LncPheDB数据库中,我们选择了9种具有较高经济价值和高质量参考基因组的重要模式植物(包括玉米(Zea mays L.)、棉花(Gossypium barbadense L.)、小麦(Triticum aestivum L.)、番茄(Lycopersicon esculentum Mille)、水稻(Oryza sativa L.)、普通大麦(Hordeum vulgal L.)、高粱(Sorghum bicolor L.)、大豆(Glycine max L.)和黄瓜(Cucumis sativus L.))。根据数据测序方法和数据测序深度,我们从国家生物技术信息中心(NCBI) Sequence Read Archive (SRA)数据库(https://www.ncbi.nlm)中提取了共计2324个RNA测序(RNA- seq)数据集。nih.gov/sra/)(补充表S1)。使用Linux系统下的SRA工具包(版本2.8),我们首先将提取的SRA文件转换成Fastq格式,并使用Trim Galore(版本0.50)裁剪适配器序列(https://www.bioinformatics.babraham。Ac.uk/projects/trim galore/)获取干净的数据。HIAST2 (Kim et al. 2015)用于清洁数据和参考基因组之间的比较;之后,使用StringTie (Pertea et al. 2015)组装干净的数据。[1]
使用StringTie-merge获得每个物种的转录本集。转录本按以下标准筛选:
转录本长度小于200个碱基对,开放阅读框大于120个氨基酸。
最后,使用BLASTx搜索SWISS-PROT数据库,过滤出可能含有参数为- e1.0e -4- s1编码小肽的转录本。
将数据库与Rfam数据库进行比较,筛选出tRNAs、rnas、sRNAs和miRNAs。
过滤后收集转录本。使用CPC (Kong et al. 2007)、CREMA (Simopoulos et al. 2018)、PLEK (Li et al. 2014)和RNAplonc (Negri et al. 2019)程序计算转录本的蛋白质编码能力,使用至少两个软件中检测到的非蛋白质编码的转录本作为候选lncrna(图1B)。
此外,为了丰富lncRNAs类型,我们在RNAcentral Database (the et al. 2017)和EVLncRNAs Databases (Zhou et al. 2018)中对上述9个物种的lncRNAs序列进行了整理。
为了从已发表的GWAS文章中提取全面、高质量的信息,我们使用关键词“species”和“GWAS”对PubMed发表的文章进行搜索,获得了2009年以后发表的2227篇相关研究文章。之后,如果具有显著snp -表现型相关分析数据的候选文章较多,则选择Articles,删除有片段型和表现型相关数据或没有snp -表现型相关分析数据的文章。我们发现497篇文章的数据与全基因组变异位点和表型性状显著相关。最后,根据GWAS显著数据的Pvalue (P=10-3)进一步筛选了421篇文章。此外,这些文章的基本信息列在补充表S2中。
为了将lncRNAs数据与GWAS结果数据连接起来,我们使用了BWA工具 (version 0.7.17),将每个物种GWAS数据中的snp和同一物种中lncRNAs数据中的参考基因组统一为相同的参考基因组。随后,我们首先根据SNPs之间的距离(变位点之间的距离小于连锁不平衡区域(LD)的长度)对长片段进行比对(补充表S3),然后根据各物种的LD对比对的长片段进行扩增,如果lncrna和基因都在增量区域内,则认为这些lncrna调节了相应的表型,并与基因相关。同时,我们也根据每个物种的LD区域的长度,并根据基因或lncRNA与扩增片段之间的位置关系,在GWAS结果中扩增出一个单一的位点,以确定lncRNA或基因可能调控的表型(Guttman and Rinn 2012;Guttman等人,2011年;Huarte等人,2010年;Lee 2009;Martianov等人,2007;Nagano等人,2008;Rinn和Chang 2012;Sleutels等,2002年)。
程序
- LncPheDB使用PostgreSQL实现和Django开发服务器。Web用户界面是用Django开发的(https://www.djangoproject.com;一个高级Python web框架,鼓励快速开发和干净、实用的设计),HTML5, CSS3, AJAX(异步JavaScript和XML;JQuery(一个跨平台和功能丰富的JavaScript库;http://jquery.com,版本1.10.2),Vue (https://vuejs.org;渐进式JavaScript框架,版本2.6.14),layui (https:// github.com/sentsin/layui/; 一个经典的模块化前端UI框架)和Boot-Strap(一个开源的工具包,用于用HTML、CSS和JS开发web项目;https://getbootstrap.com,版本4.6.0)。对于动态基因组可视化和分析,JBrowse基因组浏览器(一个快速、可伸缩的基因组浏览器,完全用JavaScript和HTML5构建;https://jbrowse。org/jbrowse1。采用Html,版本1.16.11)生成交互式图表。
结果
- GWAS揭示了许多与表型相关的遗传变异。数千项GWAS研究表明,与特定性状或疾病相关的常见遗传变异中,93%位于非编码区(Finucane等,2015;Schaid et al. 2018)。其中,超过90%的变异是SNPs。此外,lncRNA区域的SNPs密度与蛋白质编码区域的SNPs密度相似。一些lncRNA区间的SNP密度甚至高于基因组平均值(Jin et al. 2011)。lncRNA中的SNP变异可以通过改变剪切、定位和mRNA的稳定性来影响mRNA的表达。因此,lncRNA SNPs与表型之间的关系需要深入研究。已经有研究表明,lncrna可以在表观遗传调控、转录调控和转录后调控的多个水平上影响复杂性状(Zhang et al. 2018)。
- 为lncrna与表型的联系提供全面的资源。首先,通过RNA-seq分析,并对==RNAcentral==和EVlncrna[2]中各种非编码区数据库的数据进行整理,我们总共获得了203,391条LncRNA序列。其中玉米(Zea mays L.)、棉花(Gossypium barbadense L.)、小麦(Triticum aestivum L.)、番茄(Lycopersicon esculentum Mille)、水稻(Oryza sativa L.)、大麦(Hordeum vulgole L.)、高粱(Sorghum Bicolor L.)、大豆(Glycine max L.)和黄瓜(Cucumis sativus L.)的lncrna分别为32,397、32,192、43,659、8,741、11,565、25,884、27,623、12,577、8,753。
- 在标准筛选的基础上,我们整合了421篇文章中的9个物种的2000个重要农艺性状和120,271个显著影响表型的SNPs。其中,水稻(Oryza sativa L.)和玉米(Zea mays L.)分别有764个和573个性状,占全部性状的66.85%;同时预测了68862个lncRNA序列,可以调控重要农艺性状(表1)。![[Pasted image 20230303153722.png]]
- 此外,使用户更容易、更高效地使用数据。我们提供了一个web服务接口——lncphedb。LncPheDB提供了用户友好的界面、可视化平台和各种搜索选项。LncPheDB数据库主要提供9个物种的参考基因组信息(参考基因组大小、染色体数目、蛋白质编码基因数目)。提供了所有lncRNA以及与表型相关的lncRNA的基本信息(如物种、lncRNA identity (ID)、染色体、起始位点、终止位点、正链和负链),以及GWAS结果的基本信息(如GWAS表型性状、基因组峰位、Pvalue)。此外,LncPheDB还提供了与lncRNAs相关基因的功能信息和不同物种基因的蛋白序列信息(通过搜索SWISS-PROT数据库),以及与表型相关的lncRNAs调控网络信息(图2)。
- LncPheDB提供两个搜索引擎:lncRNA搜索引擎和GWAS搜索引擎。lncRNA模块提供了各物种全面的lncRNA-表现型相关数据,以列成表的形式创建。各相关数据主要包括表型相关的lncRNA ID、物种、染色体位置、lncRNA起始和终止位点、正链和负链、调控表型、峰位、表型- snp相关的p值、比对基因、比对基因序列。在这个模块中,我们基于每个物种的LD衰减,将距离小于物种LD的相邻显著SNPs合并成一个单一的关联信号。在一个信号区域中P值最小的SNP被认为是先导SNP。最后,根据各物种的LD预测相关的lncRNA和mRNA。本模块主要研究SNPs之间的连接以及SNPs与lncRNA或mRNA之间的连接。
- 本模块中突出的表型,如:位于2号染色体上的201,770,002 (P = 3.65E-59)、201,770,047 (P = 4.97E-07)、201,770,048 (P = 3.65E-59)三个snp位点与玉米叶片显著相关,且snp位点位于lncRNA URS0000D75A41_4577.4871(201,769,823-201,770, 124)内。因此我们推测lncRNA URS0000D75A41_ 4577.4871可能与玉米叶片有关。此外,对于感兴趣的lncrna,用户可以使用我们的数据库进行深入的探索。以玉米lncRNA EL0549为例,选择玉米品种后,输入lncRNA EL0549,点击“搜索”,可以很容易找到lncRNA EL0549的位置信息、相关GWAS信息、EL0549调控玉米面粉纤维含量、脯氨酸含量、分解粘度、面粉纤维含量、面粉蛋白质含量、穗部果穗位置、玉米籽粒等信息。
- 为了进一步了解lncRNA与玉米夹带、蛋白质含量、纤维浓度等性状之间的生物学过程,用户可以点击“功能”,查看lncRNA相关基因的功能信息。同时,用户也可以点击“Sequence”来查看基因的蛋白质序列(附图S1)。通过表型、lncRNA/Gene ID或GWAS位点输入,GWAS模块可获得每个物种的表型相关基因或lncRNA、与表型显著相关的全基因组变异位点、相关P值等。本模块的相关数据主要是基于单个变异位点的扩增得到的,强调了变异位点与lncRNA或基因的相对位置。在GWAS模块中,用户可以探索他们感兴趣的表型。例如,玉米可以使用关键字“100粒重”(附图S2)。所有搜索结果都可以以列表的形式下载。结合这个lncRNA模块和GWAS模块,可以对可能受lncRNA或基因调控的表型性状进行更全面的全基因组预测。同时,我们还添加了JBrowse基因组浏览器,用户可以直观的搜索lncrna和基因在染色体上的相对位置分布。
- 为了研究序列相似性,我们设计了Blast工具(版本2.12)。BLAST服务通过在整个数据库中搜索特定的物种,使用户可以搜索到类似的lncRNA序列。在BLAST结果中,用户可以通过点击“Click here to search LncRNA: LncRNA ID”选项卡,直接查看片段相似的LncRNA相关表型性状。为了让用户能够清晰、简洁地看到LncRNA及其调控的靶基因,我们通过==psRobot (Wu et al. 2012)、psMimic (Wu et al. 2013)和IntaRNA (Mann et al. 2017)对已知和预测的LncRNA的靶基因进行预测==,并以调控网络的形式呈现,用不同的颜色标记,设置三个按钮,用户可以通过点击相应的按钮来隐藏相应的基因。用户除了可以从相应的搜索页面下载信息外,还可以通过下载页面下载各物种参考基因组信息、lncRNA fasta序列文件、lncRNA Potential Encoding File、lncRNA Expression File和GFF文件进行数据库构建。此外,用户还可以下载每个物种的GWAS信息文件(如相关表型信息、SNP、p-value、研究信息)和基因GFF文件。
- ![[Pasted image 20230303200140.png]]图2:LncPheDB的数据库内容和功能
讨论
- 近年来随着测序技术的发展,人们发现了大量的lncrna,对植物中lncrna的研究也取得了很大的进展。然而,与动物和人类中的lncrna相比,人们对植物中的lncrna的了解非常有限,特别是对lncrna在调控重要农学性状和影响模型植物产量和质量方面的机制的了解(Heo et al. 2013;Liu et al. 2012;Mann et al. 2017;Xiao等人2009年;Yang等人,2014)。随着研究的深入,一些注释较好的数据库,如==PLncDB V2.0== (Jin et al., 2011)和GREENC (Gallart et al., 2016)对lncrna的位置和序列等一些基本信息进行了较为全面的注释。研究者的研究重点已从识别新的lncrna转向lncrna的功能研究。近年来,研究人员对lncrna在植物中的功能进行了研究。然而,目前==已发现的lncrna==中,其调控机制已被阐明的==不足1%== (Quek et al. 2015)。
- 此外,由于lncRNAs在类型和功能上的差异,在很大程度上不同程度地影响基因的表达,一些lncRNAs的研究结果对其他lncRNAs的研究提供了较低的参考价值。因此,研究者对lncrna的了解和研究是有限的。目前迫切需要利用全基因组数据库研究==lncrna与表型的关系==,探索lncrna的潜在调控机制。
- 与其他植物lncRNA数据库相比,LncPheDB侧重于==探索lncRNA调控表型==的数据资源。通过标准化的筛选标准,LncPheDB人工分类共==203,391个lncRNA序列==,==2000个表型==,==120,271个SNPs==。最后,它列出了68862个与农艺性状相关的lncRNA序列。
- 根据这项研究。在水稻中,lncRNA osa-eTM160 (OsaeTM160是一个长688 bp的lncRNA,转录于水稻3号染色体LOC_Os03g12815和LOC_Os03g12820之间)通过与OsARF18竞争性结合来调控水稻的育性和种子大小。而lncRNA URS00008EDDE3_ 39947.4350(也称为osa-eTM160)对水稻种子育性、开花天数、种子重、砷积累、发芽率和籽粒Mn浓度的潜在调控意义在我们的数据库中得到了预测,进一步证实了我们的数据库的意义。
- 此外,用户可以利用自己正在研究的lncRNA序列,与数据资源中的所有物种进行BLAST比较,识别出==lncRNA调控的保守表型==。此外,LncPheDB还为用户提供了方便的浏览和搜索服务。因此,用户可以从Gene ID、LncRNA ID、基因组位置、SNP、表现型等多个方面搜索LncRNA相关性。为了帮助用户探索lncrna在复杂性状中潜在的分子调控机制,我们对==lncrna的靶基因预测==进行了归纳整理,并以调控网络的形式直观展示。用户可以通过点击不同的按钮来隐藏或显示相应的数据。
- 作为未来的展望,我们将通过对lncrna调控表型数据资源的研究,为更多的物种添加更多的lncrna相关表型。另外,由于我们在收集整理数据时发现相关研究的数量出乎意料的多,我们将从现有的研究中整理出更多的lncrna调控表型的数据,这些数据具有明确的调控机制和预测,并及时更新数据资源。为了进一步阐明lncrna的调控机制,我们将增加与lncrna互补的mirna的序列信息,增加lncrna的组织特异性表达信息。同时,为了丰富水稻的转录组信息,我们将在研究中加入相关的转录组数据,方便科学研究和利用。尽管如此,我们也鼓励所有研究人员通过联系页面提交他们的相关研究。我们相信LncPheDB将为lncrna功能的研究提供帮助。
-
【查看了水稻用的转录组数据,发现用的是普通转录组数据,不具有代表性,并且在文中发现了错误,使用的部分水稻数据为籼稻 Oryza sative ssp. indica ,但是在其中标注的粳稻 Oryza sative ssp. japonica。】 ↩
-
有必要手动收集所有经实验验证的功能性lncRNA(EVlncRNA)及其序列、结构和功能,并在中央数据库中进行注释。使用2016年5月1日之前的文献首次发布了此类数据库(EVLncRNAs)。此后(截至2020年5月15日),已发表了19 245篇与lncRNA相关的文章。在EVLncRNAs 2.0中,对这些文章进行了人工检查,以扩大收集的数据。具体而言,注释的EVlncRNA、相关疾病、lncRNA疾病关联和相互作用记录的数量分别增加了260%、320%、484%和537%。此外,该数据库还增加了几个新的类别:8个lncRNA结构、33个外体lncRNA、188个环状RNA和1079个耐药、耐化学和耐应激lncRNA。所有记录都已检查过已知的撤回和假冒物品。此次发布还附带了一个高度互动的视觉交互网络,方便用户跟踪lncRNA、miRNA、蛋白质、基因和其他功能元件之间的潜在关系。此外,它还提供了四个新的生物信息学工具的链接,这些工具具有改进的数据浏览和搜索功能 ↩