// gff to bed
python -m jcvi.formats.gff bed --type=gene --key=ID Soffic.v20191009.gff3 > gene.bed
samtools faidx Soffic.genome-hic20191009.fasta
// 基因 上游2000bp region
bedtools flank -i gene.bed -g Soffic.genome-hic20191009.fasta.fai -l 2000 -r 0 -s > promoters.bed
// 根据region 提序列
bedtools getfasta -s -fi Soffic.genome-hic20191009.fasta -bed promoters.bed -fo promoters.fa -nameOnly
更简单的方法
#gff3格式转gtf格式)
gffread -T -o Ft.gtf Ft.gff3
#提取基因上游序列
seqkit subseq --gtf Ft.gtf \ #鉴定到基因家族成员的gtf文件
--feature transcript \ # 提取转录本上游
--up-stream 2000 \ # 提取长度
--id-ncbi \ # 输出的id格式
--only-flank \ # 不包括feature本身序列
--gtf-tag transcript_id \ # 输出结果添加转录本id
genome.fasta > gene.upstream.fasta
最后编辑于 :
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。