原文来源:Yang K, Wen X, Sablok G. Method for the Large-Scale Identification of phasiRNAs in Brachypodium distachyon[M]//Brachypodium Genomics. Humana Press, New York, NY, 2018: 187-194.
Abstract
摘要简单说了四个方面的内容,第四点是全文的重点。
- 小RNA的作用:转录后调控
- 小RNA的分类,产生过程
- 鉴定PHAS的策略:不同物种同源序列比对;de novo(测序数据与参考基因组比对)
- 整理了一份分析流程
Key words
PHAS, phasiRNA, Hyper geometric distribution, Phasing score, Bioinformatics
1. Introduction
第一段
- 命名为phasiRNA、trans-acting siRNAs的原因
- 举例说明phasiRNA在植物配子形成过程,光敏雄性不育过程中具有调节作用
第二段
- phasiRNA和产生phasiRNA的基因座(PHAS基因座)的起源和分布在基因组上是均匀的
- 单击/双击模式:phasiRNA生成过程需要一个或两个miRNA来触发
- 详述了phasiRNA生成过程
2. Materials
- 小RNA序列的fasta文件
>SRR_1_x77275
TCGGACCAGGCTTCATTCCCC
- 参考基因组或转录组的fasta文件
- Perl, R, bowtie, and bowtie-build
3. Methods
3.1 建立参考基因组索引
bowtie-build genome.fa genome.fa
3.2 将小RNA序列比对到参考基因组
比对到基因组的小RNA的5'末端的坐标作为起始位置。考虑到小RNA双链体的3'末端有2-nt的突出,当小RNA比对到反义链时,需要额外加上2-nt的正偏移再来确定小RNA的起始位置。
大多数情况下,序列简单、比对到重复区域的那些reads应该被舍弃,以减少背景噪音。
bowtie -f -m 6 -v 0 -a -p 4 genome.fa smallRNA.fa smallRNA.bwt
这里补充一篇bowtie用法详解的帖子,https://blog.csdn.net/soyabean555999/article/details/62236341。
3.3 Extracting Small RNA Hotspots
from Genome
该方法使用滑动窗口沿基因组滑动的方法来确定以特定相位模式产生小RNA的基因组区间。
一个关键点是确定多远的距离来区分:两个小RNA reads的5'坐标是属于一个hotspots还是属于两个不同的hotspots。
这里的Hotspots应该就是常说的cluster,简单理解为基因组上能产生很多小RNA的小片段。
3.4 Identifying Positive
Sliding Windows
3.4.1
以鉴定产生21-nt phasiRNA的区间为例。
将窗口设置为189-nt,移动步长为1;以小RNA 5'的坐标为其位置。
在移动窗口的过程中,当窗口左端与某一小RNA reads 5'的坐标重合时,选取该窗口为待分析窗口。将窗口内基因组的每一个位置编号,按基因组位置坐标除以21的余数,即1-21依次循环编号。如图所示。
小RNA reads比对定位之后,其位置如果具有相同的bin编号,则可以说明,这些小RNA reads是通过相同的相位模式形成的。
3.4.2 Filtering windows showing low possibility to generate small RNA in 21-nt manner
对于每一个窗口,采用以下指标过滤:
- unique small RNAs的数量.
- unique 21-nt small RNAs的数量.
- PHAS register 1st occupied by 21-nt small RNAs的数量.
- Discarding those with only a few small RNAs mapped, those with low ratio of uniquely mapped 21-nt small RNAs, and those with low proportion of PHAS registers occupied by 21-nt small RNAs.
这里的“register 1st”理解为第一种bin编号,不一定就是1。
3.4.3 Filtering windows with high P-value:
3.5 Calculating Phasing Score
3.5.1 Merging positive sliding windows whose PHAS register 1st are the same as PHAS candidates
- Grouping positive sliding windows by their PHAS register 1st.
- Ordering positive sliding windows in the same group by their start coordinates.
- Checking start and end coordinates of the adjacent positive sliding windows to see if they have overlaps.
- Extending the positive window by taking the most left and right coordinates of overlapped adjacent windows until they don’t have overlaps anymore.
如果窗口的第一种bin编号相同则将窗口分为一组,再按窗口起始坐标排序,相邻的窗口若有重叠则合并。
3.5.2 Filtering PHAS candidates with highest phasing score
对于每一个候选的PHAS位点,按照以下指标过滤:
- 21-nt small RNAs的数量.
- PHAS register 1st occupied by 21-nt small RNAs的数量.
- 21-nt small RNAs occupying PHAS register 1st的数量.
- Calculating phasing score of each coordinate with following formula.
- For PHAS candidates, each coordinate is regarded as the 95th position, which is the middle position of a sliding window. Its phasing score is calculated with the following formula.
- Discarding PHAS candidates whose highest phasing scores are small.
3.6 Extracting and Quantifying phasiRNAs from Identified PHAS
根据PHAS loci(起始和终止位置)和相位模式(phasiRNA长度为21;每个phasiRNA左端位置对应的bin编号已知)还能够提取出phasiRNA序列。
如图,
63,642,240-63,642,260
63,642,261-63,642,281
63,642,282-63,642,302
......
就是对应的phasiRNA序列。