Linux下提全部基因的启动子

// gff to bed
python  -m jcvi.formats.gff bed --type=gene --key=ID  Soffic.v20191009.gff3  > gene.bed
samtools faidx Soffic.genome-hic20191009.fasta
// 基因 上游2000bp region
bedtools flank -i gene.bed -g Soffic.genome-hic20191009.fasta.fai  -l 2000  -r 0 -s > promoters.bed
// 根据region 提序列
bedtools getfasta -s -fi Soffic.genome-hic20191009.fasta  -bed promoters.bed -fo promoters.fa -nameOnly
更简单的方法
#gff3格式转gtf格式)
gffread  -T  -o  Ft.gtf  Ft.gff3
#提取基因上游序列
seqkit  subseq   --gtf Ft.gtf  \ #鉴定到基因家族成员的gtf文件
--feature transcript   \ # 提取转录本上游
--up-stream 2000   \ # 提取长度
--id-ncbi    \ # 输出的id格式
--only-flank    \ # 不包括feature本身序列
--gtf-tag  transcript_id   \ # 输出结果添加转录本id
genome.fasta  > gene.upstream.fasta
最后编辑于
©著作权归作者所有,转载或内容合作请联系作者
平台声明:文章内容(如有图片或视频亦包括在内)由作者上传并发布,文章内容仅代表作者本人观点,简书系信息发布平台,仅提供信息存储服务。