比对-NCBI blast








BLAST(Basic Local Alignment Search Tool)是一套在蛋白质数据库或DNA数据库中进行相似性比较的分析工具。BLAST程序能迅速与公开数据库进行相似性序列比较。BLAST结果中的得分是对一种对相似性的统计说明。

BLAST 采用一种局部的算法获得两个序列中具有相似性的序列。

Blast中常用的程序介绍:

1、BLASTP是蛋白序列到蛋白库中的一种查询。库中存在的每条已知序列将逐一地同每条所查序列作一对一的序列比对。

2、BLASTX是核酸序列到蛋白库中的一种查询。先将核酸序列翻译成蛋白序列(一条核酸序列会被翻译成可能的六条蛋白),再对每一条作一对一的蛋白序列比对。

3、BLASTN是核酸序列到核酸库中的一种查询。库中存在的每条已知序列都将同所查序列作一对一地核酸序列比对。

4、TBLASTN是蛋白序列到核酸库中的一种查询。与BLASTX相反,它是将库中的核酸序列翻译成蛋白序列,再同所查序列作蛋白与蛋白的比对。

5、TBLASTX是核酸序列到核酸库中的一种查询。此种查询将库中的核酸序列和所查的核酸序列都翻译成蛋白(每条核酸序列会产生6条可能的蛋白序列),这样每次比对会产生36种比对阵列

使用

BLAST (生物信息学) - 维基百科,自由的百科全书 (wikipedia.org)

NCBI的在线BLASThttp://blast.ncbi.nlm.nih.gov/Blast.cgi

从BAM文件提取unmapped reads并转换成fastq格式

从BAM文件提取unmapped reads并转换成fastq格式 - 简书 (jianshu.com)

cd /home/yifan/project/CZM/lncRNA.m6A/data/Data/4.map-data

提取unmapped.bam

samtools view -b -f 4 LR22A5DH23.raw.bam > LR22A5DH23.unmapped.bam

#需要提取 unmapped reads,使用 -f 4可以保留所有的unmapped read

#这里面包含的reads包括所有paired和 unpaired,如果只想要paired unmapped reads,可以使用 -f 13

#参数具体参见 http://broadinstitute.github.io/picard/explain-flags.html

bam先排序

samtools sort -n -@ 8 LR22A5DH23.unmapped.bam -o LR22A5DH23.unmapped.sorted.bam

#-n将bam文件改成安装reads名排序

# -o FILE 设置最终排序后的输出文件名

# -@ INT 设置排序和压缩是的线程数量,默认是单线程

(103条消息) [samtools]sort命令简介_睿智如水-CSDN博客_samtools sort

转化为fastq

#安装bedtools

conda install -c bioconda bedtools

conda install -c bioconda/label/cf201901 bedtools

#可使用bedtools的 “bamToFastq”实现

bedtools bamtofastq [OPTIONS] -i<BAM>-fq<FASTQ>

#convert

bedtools bamtofastq -i LR22A5DH23.unmapped.sorted.bam -fq out.R1.fq -fq2 out.R2.fq

bedtools bamtofastq -i input.name.bam -fq out.R1.fq -fq2 out.R2.fq

#WARNING:    is marked as paired, but its mate does not occur next to it in your BAM file. Skipping.

#是因为两条reads(/1, /2)只有一条reads比对成功了,而另一条reads没有比对成功,所以在bam文件中没有mate的记录

#gzip fq压缩

gzip out.R1.fq

gzip out.R2.fq

#结果



©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。

推荐阅读更多精彩内容