最近在看植物长链非编码RNA的论文,其中一个分析步骤是鉴定lncRNA中可能是属于miRNA前体的序列
基本步骤是从 miR Base 数据库下载 http://www.mirbase.org/ miRNA的序列,然后使用blast比对
植物的小RNA数据库 ,华南农业大学的夏瑞老师课题组发表了论文
sRNAanno—a database repository of uniformly annotated small RNAs in plants
image.png
论文链接
https://www.nature.com/articles/s41438-021-00480-8
数据库的链接
http://www.plantsrnas.org/index.html
我查了一下自己的目标物种这个数据库中也有收集,所以直接从这个数据库下载就可以了
他的内容是如下格式
image.png
每3行是一个miRNA
我用python脚本把序列内容提取出来
fr = open("miRNA.gff",'r')
fw = open("miRNA.fasta","w")
for line in fr:
if "miRNA_primary_transcript" in line:
aa = line.split(";")
seqid = aa[-2].replace("name=","")
seq = aa[-1].replace("seq=","")
fw.write(">%s\n%s"%(seqid,seq))
fr.close()
fw.close()
image.png
接下来是blast
~/Biotools/blast+/ncbi-blast-2.11.0+/bin/makeblastdb -in miRNA.fasta -dbtype nucl -title make_miRNA -parse_seqids -out miRNA -logfile make_miRNA.log
~/Biotools/blast+/ncbi-blast-2.11.0+/bin/blastn -db miRNA -query ../lncRNA_transcripts.fasta -out miRNA-lncRNA.txt -evalue 0.001 -outfmt 6 -word_size 7
欢迎大家关注我的公众号
小明的数据分析笔记本
小明的数据分析笔记本 公众号 主要分享:1、R语言和python做数据分析和数据可视化的简单小例子;2、园艺植物相关转录组学、基因组学、群体遗传学文献阅读笔记;3、生物信息学入门学习资料及自己的学习笔记!