refseq比对（2018-06-06）

1 一共八个物种
拟南芥：

wget -c ftp://ftp.ncbi.nlm.nih.gov/genomes/refseq/plant/Arabidopsis_thaliana/all_assembly_versions/GCF_000001735.3_TAIR10

（其他7类已下载）

2 将各个物种的refseq单独与基因进行对比
过程与之前类似：

建库

makeblastdb -in GCF_000001735.3_TAIR10_rna.fna -input_type fasta -dbtype nucl -title Arabidopsis_thaliana_rna -parse_seqids

比对

blastn -query AER314_4_gene.fa -db GCF_000001735.3_TAIR10_rna.fna -out db_blast_TAIR10  -outfmt 6 -evalue 1e-10 -num_threads 4

3 使用R进行merge

DF1<-read.csv("lyr/rna-seq/blast/geneID/TAIR10.csv") #读取gene.csv
DF2<-read.csv("lyr/rna-seq/blast/data/db_blast_TAIR10.csv") #读取db_blast3.csv
dim(DF1) #看一下表格维度
dim(DF2)
merge(DF1,DF2,by ="RNA_nucleotide_accession.version", all.y = TRUE)
data1<-(merge(DF1,DF2,by ="RNA_nucleotide_accession.version", all.y = TRUE)) #将merge结果写道data中
write.csv(data1, file = "result_TAIR10.csv", quote = FALSE, row.names = FALSE) #输出文件为result_data.csv

©著作权归作者所有,转载或内容合作请联系作者
【社区内容提示】社区部分内容疑似由AI辅助生成，浏览时请结合常识与多方信息审慎甄别。
平台声明：文章内容（如有图片或视频亦包括在内）由作者上传并发布，文章内容仅代表作者本人观点，简书系信息发布平台，仅提供信息存储服务。

refseq比对（2018-06-06）

refseq比对（2018-06-06）

推荐阅读更多精彩内容

友情链接更多精彩内容