BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。
BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。
Blast中常用的程序介绍:
1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。
2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。
3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。
4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。
5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列
使用
BLAST (生物信息学) - 维基百科,自由的百科全书 (wikipedia.org)
NCBI的在线BLAST:http://blast.ncbi.nlm.nih.gov/Blast.cgi
从BAM文件提取unmapped reads并转换成fastq格式
从BAM文件提取unmapped reads并转换成fastq格式 - 简书 (jianshu.com)
cd /home/yifan/project/CZM/lncRNA.m6A/data/Data/4.map-data
提取unmapped.bam
samtools view -b -f 4 LR22A5DH23.raw.bam > LR22A5DH23.unmapped.bam
#需要提取 unmapped reads,使用 -f 4可以保留所有的unmapped read
#这里面包含的reads包括所有paired和 unpaired,如果只想要paired unmapped reads,可以使用 -f 13
#参数具体参见 http://broadinstitute.github.io/picard/explain-flags.html
bam先排序
samtools sort -n -@ 8 LR22A5DH23.unmapped.bam -o LR22A5DH23.unmapped.sorted.bam
#-n将bam文件改成安装reads名排序
# -o FILE 设置最终排序后的输出文件名
# -@ INT 设置排序和压缩是的线程数量,默认是单线程
(103条消息) [samtools]sort命令简介_睿智如水-CSDN博客_samtools sort
转化为fastq
#安装bedtools
conda install -c bioconda bedtools
conda install -c bioconda/label/cf201901 bedtools
#可使用bedtools的 “bamToFastq”实现
bedtools bamtofastq [OPTIONS] -i<BAM>-fq<FASTQ>
#convert
bedtools bamtofastq -i LR22A5DH23.unmapped.sorted.bam -fq out.R1.fq -fq2 out.R2.fq
bedtools bamtofastq -i input.name.bam -fq out.R1.fq -fq2 out.R2.fq
#WARNING: is marked as paired, but its mate does not occur next to it in your BAM file. Skipping.
#是因为两条reads(/1, /2)只有一条reads比对成功了,而另一条reads没有比对成功,所以在bam文件中没有mate的记录
#gzip fq压缩
gzip out.R1.fq
gzip out.R2.fq