01.targetscan预测miRNA原理
TargetScan 基于序列互补原则,找到比对到靶 3'UTR 的保守性 8 mer、7 mer 或 6 mer 位点(seed match 序列),进一步根据热力学稳定性筛选得到 miRNA 的靶。seed 序列配对主要考虑三种类型:7 mer-1a(miRNA 的第 2-7nt 与靶基因互补配对, 而且 UTR 上与 miRNA 1nt 互补配对的位置是 A);7 mer-m8 (miRNA 2-8nt 与靶基因完全配对);8 mer (miRNA 2-8nt 与靶基因完 全配对,而且 UTR 上与miRNA 1nt 互补配对的位置是 A)。
由于很多通过保守的 seed match 序列找到的 target 不一定具有功能,而且有很多与靶基因配对的不具备保守性的 seed match 区域也找到了一些有功能的 miRNA 靶位点。targetscan 考虑到这点提出了seed match周围序列也会影响 miRNA 的靶功能,引入了 context score。主要包括如下几部分:
1. Site Type 8 mer > 7 mer-m8 > 7 mer-1a;
2. 3' pairing contribution:除了与 miRNA seed 区域配对,与 miRNA12-16nt 的配对也有可能对 miRNA target 的功能产生影响;
3. local AU contribution:AU rich 的区域更有可能有功能;
4. position contribution:miRNA 靶位点至少离终止密码子15nt,且功能性 site 更可能位于 UTR 两端而不是中间,中间往往存在复杂二级结构不利于靶位点结合。
考虑这些因素后,对于不具备保守性的 seed match 区域也可以计算相应的 context score。将保守和不保守区域的 context score 进行排序即得到 context score percentile。一般考虑 context score percentile > 90 为预测的可能具有功能的 miRNA 的靶。
02.Targetscan 预测所需文件准备
miRNA_family文件可以在targetscan官网下载:miRNA_family_info.txt
step 1、首先需要准备两个文件:miRNA 的 fa 序列以及 target 的 fa 序列文件。
step 2、将上述文件转换为 targetscan 预测需要的格式。
其中 miRNA 的序列文件转换为如下格式(任意一种均可):
格式 1:包含四列,分别是:miRNA 家族、物种 ID、miRBase 的 ID、成熟的 miRNA 的序列。
格式 2:包含三列,分别是:miRBase 的 ID、成熟的 miRNA 的第一到第七位的序列、物种 ID。
target 的 fa 序列转换为如下格式,即包含三列:ID、物种 ID、序列。
Usage:
perl ../targetscan_70.pl miR_9606_info.txt query.fa target_Results.txt
03.Targetscan 结果文件解读
其中标题各列的含义如下:
GeneID :name/ID of gene (from UTR input file) #Query gene的ID
miRNA_family_ID:name/ID of miRNA family (from miRNA input
file) #预测到的靶miRNA的ID
species_ID :name/ID of species (from UTR input file) #物种的ID
MSA_start : starting position of site in aligned UTR (counting gaps) #比对到Query的起始位置(包括gaps)
MSA_end:ending position of site in aligned UTR (counting gaps) #比对到Query的终止位置(包括gaps)
UTR_start : starting position of site in UTR (not counting gaps) #比对到Query的起始位置(不包括gaps)
UTR_end: ending position of site in UTR (not counting gaps) #比对到Query的终止位置(不包括gaps)
Group_ID :ID (number) of site(s) (same gene, same miRNA) that overlap #相同基因、miRNA的靶位点的overlap的组
Site_type : type of site in this species (m8 [7mer-m8], 1a [7mer-1A], or m8:1a [8mer]) #比对的类型
miRNA in this species :if "x", then this miRNA has been annotated in this species #如果为“x”则表示此miRNA被注释到这个物种
Group_type : type of this group of sites; if 'Site_type' in a 'Group_ID' is heterogeneous, "weakest" type of the group is used #如果query gene是heterogeneous,则使用最弱的模式
Species_in_this_group :list of species names/IDs in which this site is found #在这个group中的物种ID列表
Species_in_this_group_with_this_site_type :for hetergeneous groups only #仅对为hetergeneous 组
ORF_overlap : If site in the UTR sequence is lowercase (indicating ORF overlap), this will be set to 1. Typical UTR sites have a value of 0. #如果Query 序列是小写的(表示ORF重叠)将被设置为1;典型的位点设置为0。
参考资料:
1.Conserved Seed Pairing, Often Flanked by Adenosines, Indicates that Thousands of Human Genes are MicroRNA Targets
2.R批量预测miRNA和靶基因之间的调控关系-TargetScan篇